BIG DATA le stringhe di Dio tra scienza e fantascienza

dataEsiste una collezione di dati immensa, nutrita quotidianamente dagli internauti e da qualsiasi informazione rilevabile da un sensore e digitalizzabile in una stringa di bit.

Qualsiasi azione, comportamento, dato geografico, campionamento audiovisivo, scansione territoriale entra a far parte di quella conoscenza e senzienza appartenente alla Rete.

Se ad oggi Big Data raccoglie solo un certo tipo di informazioni, già importanti e tali da profilarci, un giorno potrebbe aggregare una varietà sempre crescente di dati che si ricollegano alla nostra persona o al sistema in cui viviamo ed elaborarli in modo da fornire “l’equazione” che definisce voi stessi o il genere umano in un dato istante: in quel mondo fantascientifico Big Data smetterebbe di essere una collezione ed elaborazione di dati ma diverrebbe una vera e propria entità cui assoggettarsi e chiedere consiglio: in altri ambiti l’avremmo chiamata Dio.

Se pensate ad un proiettile, vi accorgerete di quanto accuratamente il suo moto sia calcolabile: per ogni istante, si può calcolare il punto effettivo dello spazio in cui il proiettile dovrebbe trovarsi in un certo momento. In realtà il calcolo della traiettoria sarebbe solo approssimato, ma non per una qualche magia che accade quando il proiettile viene esploso nel mondo reale bensì per il fatto che la simulazione non ha a disposizione le infinite informazioni riguardanti gli agenti variabili che influiscono sul proiettile reale. Se si avessero a disposizione i dati riguardanti ciascuna particella di aria, polvere ecc… che andrebbe ad interagire con il proiettile allora si potrebbe calcolare con altrettanta infinita accuratezza il suo percorso. Insomma è una questione di quantità di informazione ed elaborazione della stessa, cosa valida per qualsiasi fenomeno: Essere Umano compreso.

Se ad oggi Big Data è al servizio di analisi e previsione socio/economica e politica basata sulla quantità di informazione fornita da noi stessi, un giorno potrebbe andare molto oltre, quindi osserveremo il fenomeno con occhio fantascientifico, immaginando che Big Data possa conglomerare realmente tutte le variabili immesse nella rete dalla internet of things, soltanto per accorgerci che la realtà non è poi così lontana dal pensiero.


Adam 2.0

Quando interagiamo con la rete, produciamo dei dati: navigazione web, foto, video, podcast, pensieri, opinioni, letture, lavoro, religione, sentimenti, momenti della vita quotidiana. Tutti questi dati non solo vengono memorizzati ed elaborati per fornire pubblicità o per alimentare statistiche ma vengono strettamente associati alla nostra persona.

Sistemi di tracciamento identificano la nostra azione anche incrociando le nostre esperienze su diversi siti internet. Ad oggi sono entrati a far parte della nostra condivisione attraverso la rete anche i dati biometrici, i parametri vitali e la nostra condizione clinica e previdenziale.

Tutti questi parametri, che di per se definiscono spezzoni confusi e apparentemente separati d’informazione, in realtà possono diventare i punti di una linea.

Più noi usiamo la rete e vi forniamo informazioni, più la nostra definizione all’interno di Big Data diventa accurata. Se fossimo perennemente collegati, il tutto sarebbe identico a Matrix, con la sola differenza che l’essere umano e l’essere digitale sarebbero entrambi coscienti della propria vita nel proprio dominio di appartenenza: la realtà tangibile e la realtà virtuale.

Il nostro aspetto è campionabile dalle foto, i gesti dai video, la fonetica dalle registrazioni audio, gli stati d’animo dalle emote, le esperienze dalle descrizioni, la posizione dalla condivisione di dati GPS, i gusti dagli acquisti, le idee dalle letture, la salute dai dati biometrici, cosa mangiamo dai frigoriferi smart o dalle carte fedeltà dei supermercati e se vestiamo colorato o bianco dalle lavatrici intelligenti; potrei non finire più.

Tutte queste stringhe, tutti questi pezzi abbastanza casuali d’informazione, una volta aggregati definiscono una reale copia e storico della vostra vita. Ogni cittadino di una società telematicamente e tecnologicamente avanzata, ha già da oggi una sua “copia”, un sosia “stupido” all’interno di un ipotetico Big Data globale. Questo sosia, che all’inizio è “stupido”, tuttavia evolve e tende sempre più ad approssimarsi alla nostra persona intelligente, basandosi sulla quantità e sulla qualità di dati fornita da noi stessi finché il sosia “stupido” non diverrà un gemello virtuale.

Un sistema che ingloba tutti i vostri parametri e registra le vostre esperienze e magari è in grado di elaborare previsioni di futuri comportamenti non potrebbe che essere una “vita” senza corpo: una anima digitale.

Quando Facebook o Google può taggarvi automaticamente in una foto è perché algoritmicamente è in grado di definire il vostro aspetto in base ad una quantità di informazioni di una certa qualità che voi stesso avete fornito loro. Quando il Project Diva (https://it.wikipedia.org/wiki/Hatsune_Miku:_Project_DIVA) è in grado di far cantare una idol digitale è perché la tecnologia Yamaha Vocaloid sfrutta il campionamento di voci di cantanti reali e riproduce tali voci su un testo ed una musica nuovi, che la cantante o il cantante reale non hanno mai vocalizzato.

La quantità e la qualità di dati sulla nostra esistenza che noi forniamo a Big Data, definisce la qualità vitale del nostro gemello fatto di stringhe di dati. Più forniamo dati, più ci assomiglia, più è in grado di prevedere accuratamente cosa faremo in futuro.

Ad oggi, chi scrive ma anche chi legge questo testo, ha immesso relativamente pochi dati nel sistema, utili più che altro per calcoli finanziari e previsioni politiche ma fra cinquanta o cento anni (in realtà penso molto, molto prima), nascerà il primo uomo che sin dal concepimento fornirà dati a Big Data. Un giorno ci sarà un primo uomo che fornirà così tanti dati e con costanza e qualità così elevate che il suo gemello virtuale sarà tanto simile a lui da poter essere definito un essere umano privo di un corpo: l’Adamo della rete, un clone virtuale fatto così ad immagine della sua controparte reale da differenziarsi da questi solo per il fatto di non possedere un corpo ma di esistere in quanto “dati”.

Ovviamente la quantità e qualità dei dati non basta, serve anche un potere di calcolo così ampio da elaborarli tutti, basti pensare che già oggi la quantità di dati raccolti è immensamente superiore alla capacità di elaborarli ed è necessaria una continua ricerca per creare algoritmi di collezionamento dati, di elaborazione parallela ma anche hardware tali da consentire l’estrazione di una certa logica dai meri dati caoticamente raccolti in gran quantità.

In pratica: fornire i dati ed alimentare Big Data è sempre più facile come è sempre più difficile elaborarli. Pensate ad un gioco della settimana enigmistica: unisci i puntini. In pratica oggi si forniscono così tanti puntini che c’è bisogno di inventare nuove risorse hardware e software per unirli con efficienza e creare figure sensate.

Per creare l’Adamo della rete, forse servono così tanti puntini ed una capacità elaborativa così grande ed intelligente per unirli tutti che, a conti fatti, forse avremo la fortuna di poter essere gli unici “noi stessi” al mondo per molto e molto tempo ancora.

Se l’uomo in quanto essere è così complicato nel suo singolo, le masse sono invece ben più chiare e semplici, i dati che le definiscono sono più uniformi, i puntini più grandi e le linee più facili da tracciare. In pratica è come dire che scrivere un programma per simulare un’ape in tutti i suoi aspetti è molto più complesso che scrivere un programma per simulare un alveare intero, stilizzando le api che lo compongono.


Analisi Sociali

Al contrario della complessità di un singolo essere umano, il collettivo tende a muoversi seguendo pattern più facilmente rappresentabili.

Già attualmente, sistemi di elaborazione basati su grandi quantità di dati possono fornire stime più o meno attendibili circa la situazione politica di un Paese o circa l’evolvere di una crisi finanziaria ma anche relativamente il possibile successo che potrà avere un nuovo gadget informatico o una nuova automobile.

Che siano ricerche di mercato, previsioni sociali, calcoli sanitari o simulazioni di guerra, tutto è accomunato dal concetto di eseguire una complessa analisi su una base vasta di dati.

Se i singoli individui sono in grado di fornire direttamente dati di qualità in tempo reale, allora è possibile profilare, sempre in tempo reale, un’intera popolazione, analizzarne i gusti, le tendenze politiche, la tensione sociale, l’emergere di fondamentalismi ed estremismi e pianificare così la politica interna o estera da adottare.

Di nuovo, i dati forniti potrebbero provenire dai social network: si potrebbero inviare status sonda e poi verificare quante condivisioni essi registrino e poi analizzarne l’attendibilità da parte di coloro che hanno condiviso lo status, incrociando il pensiero attuale con lo storico manifestato sino a quel momento.

Tuttavia è di fondamentale importanza smettere di pensare che i dati immessi in un sistema siano dissociati dai dati immessi in altri sistemi. Il fatto di non condividere status relativi al proprio orientamento politico su un social network, non significa che tali dati non possano essere associati alla propria identità a partire da altre fonti, qualora si acquistino online riviste o libri appartenenti ad un certo partito politico o ci si registri al suo portale o anche si inviino tweet con le coordinate gps della sede del partito stesso. Se si è collegati ad un portale e contemporaneamente si naviga su un altro portale, si condividono informazioni come ip address, cookie, sentinelle che sono comuni ai due siti web e altri sistemi che consentono di stabilire con una certa precisione l’identità di chi sta navigando, delle ricerche che effettua e di tutta una serie di dati che contribuiscono ad alimentare il vostro profilo virtuale.

Ottenendo informazioni sociali massive ed elaborandole in maniera fantascientificamente efficiente, sarebbe possibile ottenere un quadro chiaro ed empirico della situazione umana mondiale e sarebbe altrettanto possibile simulare scenari futuri alla ricerca del “futuro migliore”.

In parole povere, si potrebbe interrogare Big Data per fornire le direttive atte a guidare l’operato dell’uomo, nel tentativo di risolvere un determinato problema o migliorare una certa situazione.

L’immaginario di Asimov, nella concezione delle novelle raccolte in Io Robot, non è poi così distante da questo pensiero ed inoltre, un’entità in grado di contenere tutto il passato ed averne il pieno controllo per elaborare quello che dovrebbe essere il futuro plausibile, altri non sarebbe che una rappresentazione classica di Dio: Big Data, diverrebbe Dio e lo guiderebbe attraverso modelli di vita e di società che l’essere umano di suo non potrebbe comprendere poiché non avrebbe la capacità di analizzare una così vasta base di dati efficientemente quanto una entità informatica.


Sfuggire a BigData

Big Data ha un grande problema e non sono i zettabyte di dati che raccoglie, ne forse la loro qualità ma soprattutto la capacità elaborativa necessaria a creare delle leggi a partire dalla mole di dati raccolti.

Ogni volta che otteniamo una pubblicità mirata attinente ai nostri gusti o magari che “predice” un nostro desiderio, allora Big Data sta facendo bene il suo lavoro ed è la prova che il nostro profiling stia diventando sempre più accurato.

Per arrivare, tuttavia, ai livelli fantascientifici preposti, il più grande scoglio sarà nella potenza elaborativa. Dovranno essere sviluppati algoritmi, magari adatti ai futuri computer quantistici ma di certo, anche se non avremo a breve una copia profonda digitale di noi stessi, ad oggi la quantità di informazioni che ci definisce è già abbastanza ampia da far riflettere e magari desiderare di rimanere entità uniche in quanto esistenza.

Per sfuggire a Big Data esistono fondamentalmente due metodi che devono essere applicati contemporaneamente: anonimato e rumore.

L’anonimato è lo scambio di dati dai quali non è possibile risalire alla fonte.

Anonimato significa navigazione anonima, magari sfruttando sistemi di onion routing proxy o VPN ma anche usando sistemi di script blocking (come no-script) o Disconnect per “tranciare” i tentativi dei siti web di tracciare ed incrociare i vostri dati di navigazione al fine di associare la vostra identità all’attuale ricerca o sito tracciato. Successivamente viene l’uso di motori di ricerca anonimi come DuckDuckGo o ixQuick attraverso i quali immettere una query che poi viene inoltrata a diversi motori di ricerca come Google o Yahoo impedendo che le vostre ricerche possano essere tracciate.

Alla base dell’anonimato, in ogni caso, c’è sempre il controllo dei dati che immettiamo nella rete: non immettere ciò che non si intende rendere pubblico è una regola base da seguire, poi entrano in gioco i tools e le tecnologie.

Se l’anonimato è un grande aiuto per preservare la propria privacy e la capacità da parte delle multinazionali e di vari enti di profilare la nostra persona, non è sempre la pratica definitiva da adottare: bisogna generare rumore.

Il concetto base è che se non siamo dei tecnofobi che vogliono sfuggire al Big Brother tagliando completamente la tecnologia dalla nostra vita, compresa la corrente elettrica, allora probabilmente ci troveremo ad usare social network, acquistare online, portare con noi uno o più telefoni cellulari.

Tutte le azioni che compiamo attraverso la tecnologia, unite alla ripetitività con cui compiamo certe azioni (in quanto persone abitudinarie) aiutano a costruire su di noi un profilo virtuale gemello. Se acquistiamo un videogioco al mese, probabilmente potremmo essere profilati come gamer, se acquistiamo tavole e vernici verremmo profilati come appassionati di brico, se prenotiamo regolarmente viaggi in villaggi vacanza allora saremmo sicuramente profilati come molto ricchi e pieni di tempo libero (tutti vorremmo essere profilati in questo modo).

Una ricerca recente, ad esempio, ha mostrato come fare e-shopping utilizzando prodotti Apple sia in verità antieconomico poiché i sistemi valutando la connessione da parte di un iPad, definivano l’utente più propenso a spendere somme elevate, dando priorità nelle ricerche ai prodotti più costosi. In questo caso l’anonimato del browser avrebbe risolto ma se siamo già stati precedentemente profilati per essere possessori di prodotti Apple, ad un futuro login il portale saprà già quanto siamo disposti a spendere per ogni visita: per questo bisogna introdurre rumore, per generare confusione nel sistema.

In questo interessante quanto breve video del Pirata Pinperepette (https://www.youtube.com/watch?v=rsXAdFnH_Fg) viene espresso questo concetto dalla parte del geotagging nei tweet come nei post, come nelle foto: evita di non mettere nessuna posizione perché qualche traccia si lascia sempre, metti piuttosto una posizione errata.

Il concetto è questo, riempire il sistema di rumore dal quale solo noi siamo in grado di reperire i dati significativi dal rumore di fondo.

Pensate che questo concetto ha messo in difficoltà addirittura la NSA nel tracciamento delle email. In uno dei programmi di tracciamento emersi dai documenti trafugati da E. Snowden, veniva descritto un programma di scansione delle email e creazione di un grafo delle connessioni tra i contatti che si scambiavano email. Bene, questo programma superefficiente trovava un enorme scoglio nello SPAM. Caselle piene di spam stabilivano così tante connessioni e così diversificate che, all’atto pratico, era molto difficile capire in maniera automatica con quali persone Mr.X intratteneva rapporti e da quali indirizzi, invece, riceveva solo spam.

Ma come si fa a generare rumore? Con un po’ d’impegno. Usare sistemi di fake location nel geotagging, essere disposti ad eseguire acquisti dal proprio account magari anche per i familiari (così da avere una mescolanza di gusti tali risultare appunto rumorosi). Usare negli spostamenti un cellulare mentre l’altro lo si tiene a casa o in ufficio o comunque usare alternativamente una scheda o l’altra se si dispone di più cellulari con sim card di diversi operatori.

Insomma il concetto è di fornire input sbagliati al sistema per rendere difficilmente filtrabili quelli inerenti la propria persona da quelli “casuali”.

Ovviamente tutto ciò è riferito ad essere un metodo di difesa contro il profiling usato per proporci iniziative commerciali o comunque per evitare che le multinazionali ci raffigurino come mucche da mungere nel più efficiente dei modi, come anche per evitare che da qualche parte ci sia un blocco di un database che ci rappresenti con fedeltà estrema e sul quale noi non abbiamo il benché minimo controllo.

Per ulteriori nozioni riguardanti l’implementazione di Big Data, consiglio di visionare questo interessante video (https://www.youtube.com/watch?v=7D1CQ_LOizA).

Advertisements

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...