Il mondo visto da Facebook.

Di Uriel fanelli, 29 febbraio 2012

Non lavoro – lo dico subito- per Facebook. Tuttavia, i servizi che gestisco hanno un bacino di circa 300 milioni di persone, e come saprete i movimenti sono tenuti in un database, per circa 36 mesi. Questo (oggi sto impazzendo per un cambio di piano di numerazione nazionale) mi ha fatto venire in mente qualcosa di cui vorrei parlare, anche per rispondere a chi mi parla di prevedibilita’ e sociologia.

Tempo fa nel nord italia ci fu una scossa di terremoto. Poiche’ dal “mio” hub transitano le notifiche SMS di Facebook e Twitter, ho visto un allarme per la crescita delle code. Cosi’ sono andato a vedere, e ho visto un picco di sms enorme. Di conseguenza, sono andato a leggere i giornali italiani, ma sono arrivato in anticipo di circa 15 minuti sull’ ANSA. Cosi’ ho scritto un messaggio su Facebook , chiedendo che succedesse, ed un paio di persone mi hanno risposto quasi subito dicendomi del terremoto.

Ora, il punto e’ che un gateway multiopco per SMS ed MMS non e’ un buon punto di osservazione. Posso vedere che c’e’ un picco, e se sniffo uno dei server posso vedere qualcuno dei messaggi che passano, e diciamo se sono fortunato trovero’ la parola “scossa” o la parola “terremoto”. Se no, si tratta di mere notifiche e non troverei nulla di eccezionale. Cosi’ ho un discreto punto di vista, ma non ho IL punto di vista.

Ho detto pero’ che si trattasse di notifiche. Ma adesso mi chiedo: se fossi su Facebook, lavorando per loro, e avessi a disposizione il loro database, cosa avrei potuto fare? Probabilmente, per un evento avvenuto in Italia, avrei potuto fare una query sul database (in fondo erano qualcosa come 10-15 milioni di PDU da 140 Bytes) e cercare, che so io, la parola piu’ usata.

E avrei visto, almeno a livello di trend, crescere la quantita’ di “scossa”, “terremoto”. Potendo leggere il servizio di Location di Facebook, avrei potuto vedere, probabilmente, anche la zona dove la scossa e’ stata piu’ forte , con un paio di query. Chiaramente chi ha vissuto la scossa per primo e’ quello che ha iniziato a scrivere su facebook, e gli altri hanno seguito dopo che la notizia si e’ diffusa.

A me capita, al massimo, di veder “ribollire” una nazione. La sensazione per me e’ quella di un pentolone che bolle borbottando. Vedo che improvvisamente (e’ successo un paio di volte) la dimensione media degli SMS(1), il che significa che la gente sta parlottando di piu’. Non capendo l’arabo, ovviamente la mia curiosita’ si ferma, ma se capissi l’arabo e tenessimo il contenuto degli SMS, potrei cercare le parole piu’ comuni, per esempio, o i trend di parole/frasi in crescita.

Detto questo, Facebook puo’ sapere che diamine stia succedendo in Egitto. Se osservano i clienti egiziani e fanno data mining sui database degli ultimi giorni , possono anche trovare trend e parole comuni. Il signor Facebook potrebbe sapere, in anticipo, che cosa sta ribollendo in pentola, quella pentola dentro cui io non posso guardare, di cui sento solo i borbottii.

Adesso poniamoci la domanda: ma la sociologia che senso ha, adesso?

E’ importante, perche’ per la prima volta nella storia esiste un database di tutto cio’ che viene detto, o quasi, in una nazione/gruppo/continente. Il risultato e’ che esistono dati di quantita’ , qualita’ e disponibilita’ mai visti prima.

Facciamo l’esempio della fisica dell’atmosfera, coi satelliti tutto quello che avete e’ un maledetto file hdf5 (http://www.hdfgroup.org/) che vi fornisce dei cubetti di spazio fotografato ad una certa frequenza, qualcosa come 2300 per 75 per 90, o roba cosi’ (se non ricordo male). Immaginate se gli scienziati avessero un database con pressione, temperatura ed umidita’ di ogni kilometro cubo di aria.

Allo stesso modo, la sociologia non ha mai avuto a disposizione dei veri dati. Non ha mai avuto a disposizione una fotografia, una mappa, una registrazione completa delle comunicazioni di un gruppo enorme, cosi’ enorme e cosi’ rappresentativo, di persone.

Fate un confronto con la popolazione reale, e vedrete che il database di Facebook di fatto E’ un modello numerico della popolazione, e pure estremamente accurato, tranne che per l’ India e il Brasile, l’ Indonesia, dove e’ comunque il miglior modello disponibile.

La sociologia e’ sempre stata considerata una scienza umanistica. Essenzialmente, perche’ non era possibile fare un modello numerico della popolazione. Ma non perche’ manchino le teorie: i sistemi stocastici sono fin troppo conosciuti, ormai. Il problema e’ che mancano i numeri. I sociologi fanno una fatica enorme ad avere i numeri.

Ma adesso immaginate la prossima generazione di sociologi. Che non ha bisogno di trovare dei paradigmi o di trovare dei modelli letterari come quello dei postmodernisti. Nono, parlo di un sociologo numerico che puo’ effettivamente misurare chi sia a favore e chi sia contrario a qualcosa, da quando, quale evento gli ha fatto cambiare idea.

Parlo di un sociologo numerico che puo’ porsi delle domande del tipo “ma cosa dicono gli elettori di Fini della tal cosa?” e avere una risposta quasi immediata. O che puo’ dire “ma come vedono il sesso quelli tra i 18 e i 23 anni?”. Oppure “di che argomento parlano le donne dai 31 ai 35 anni?”.

E’ uno stravolgimento enorme, perche’ grazie ai database dei social network, la sociologia entra nel mondo dei modelli numerici. E tra l’altro , ha la possibilita’ di diventare una scienza sperimentale.

Ovviamente, richiedera’ del tempo. Innanzitutto perche’ queste basi di dati non sono accessibili agli scienziati. C’e’ da dire che molti sociologi, essendo umanisti, cioe’ persone abituate ad essere pagate per un generico “risultato” e non per un “BUON risultato”, si opporranno sempre a queste idee.

Certo, loro NON HANNO delle basi di dati scientificamente paragonabili a quelle di Facebook o Twitter, ma non esiteranno a cercare il pelo nell’uovo per dire che quella base dati ha dei difetti.

Certo, avra’ dei difetti, ma e’ IMMENSAMENTE SUPERIORE a qualsiasi cosa abbiate avuto sinora, e specialmente raggiunge numeri di persone che i sondaggisti possono solo sognare quando si toccano. Piu’ che sufficiente per misurare prevalenze anche molto piccole con precisioni statistiche invidiabili.

Comunque, il punto e’ semplice: il signor Facebook ed il signor Twitter possono sapere, con svariate settimane di anticipo, chi vincera’ le prossime elezioni in USA. E specialmente, possono sapere di preciso cosa stia sbagliando il tale candidato o l’altro. Puo’ sapere, in tempo reale, quali sono le parole piu’ associate ad un candidato o all’altro.

E cosi’ adesso mi riallaccio al discorso “l’essere umano non e’ totalmente prevedibile da una macchina”.

Non ho mai visto un’affermazione piu’ falsa. Il fatto che esistano modelli computerizzati per il marketing fa capire che , per esempio, il comportamento economico e’ prevedibilissimo. Chi prevede vendite oggi sbaglia di pochi punti percentuali, e quando lo fa la cosa non e’ dovuta ad incomprensioni del mercato ma a carenze strutturali della rete di vendita.

In generale, la percentuale di prodotti che falliscono e’ molto bassa. Il che significa, essenzialmente, che il comportamento economico delle persone e’ altamente prevedibile. E faccio notare che gli studiosi di marketing oggi non hanno MAI avuto a disposizione il giudizio delle persone.

Cioe’, non hanno mai potuto capire davvero che cosa piaccia e che cosa non piaccia, e a chi, dei loro prodotti, se non pagando costosissime survey a campione. Immaginiamo cosa possono fare nel momento in cui possano chiedere a Facebook la lista delle prime duecento parole ad entropia alta che compaiano insieme al loro prodotto. Di fatto sapranno cosa piace e cosa non piace.

Cosi’, se gia’ oggi l’essere umano e’ economicamente prevedibilissimo (gli sbagli clamorosi nelle previsioni di vendita ci sono solo in settori pionieristici come l’ IT, ormai)  , oggi arriva uno strumento addirittura piu’ potente che permette di modellizzare le opinioni sui temi piu’ disparati. Permette di avere un modello numerico di tipo statistico, con tanto di misure in tempo reale.

Ora, forse non sapete come si costruisca una scienza esatta. La prima cosa che si fa e’ decidere un sistema di misura e il valore da assegnare ai dati. Sinora alle scienze sociali questo era mancato, e questo le aveva relegate ad alchimie basate sulle intuizioni dei sociologi, supportati al massimo da delle survey a campione nelle quali non si osservava il comportamento reale delle persone, ma solo IL COMPORTAMENTO DICHIARATO.

Cosi’, temo di avere brutte notizie per voi: probabilmente i governi NON hanno accesso a questi dati in tempo reale. Se cosi’ fosse, si sarebbe notato che in Egitto stava per scoppiare un casino, cosi’ come qualche giorno fa ho notato che “ribolliva” pur senza capire il perche’.

Cosi’, credo una cosa: Mr Facebook, Mr Twitter, Mr Google, sono le persone socialmente piu’ potenti del mondo. Se hanno buoni sistemi di data mining, dalla loro scrivania possono vedere tranquillamente l’evoluzione delle societa’, in termini numerici. Numerici. Ripeto: numerici. Possono farne una scienza esatta. Hanno le misure. Delle VERE misure.

Possono davvero usare sistemi stocastici o usare tecniche di analisi predittiva,  http://en.wikipedia.org/wiki/Predictive_analytics, e avere un vero modello.

Questo vi puo’ spiegare per quale motivo il governo cinese tiene fuori google ed i social network occidentali dalla Cina, e si tiene i propri. Se anche nascesse un’ideologia rivoluzionaria in Cina, qualche parola diventerebbe piu’ comune delle altre sui social network del partito. E il governo, se possiede quel database, vedra’ qualche parola salire o scendere nel trend.

Io me lo immagino, quel povero coglione di Soros che cerca di fare “la rivoluzione delle sciarpe rosa” e il cinese davanti al suo monitor da 103″ che vede aumentare “sciarpa” “rosa” sul suo splunk, controlla cosa va di moda con due o tre query aggiuntive sui grandi marchi del tessile, e alza la cornetta

  • “Ehi, Chang, Soros sta facendo di nuovo il coglione”
  • “Aha. E che cosa indossano stavolta, Li?”
  • “Oh, e’ una sciarpa rosa”.
  • “E in che zona lo vedi?”
  • “Dalle parti del distretto di sarcazzociancing, per ora sono qualche migliaio”
  • “Ok, mando una divisione. Per stasera li abbiamo in carcere”.

Perche’ vedete, se voi fate la rivoluzione delle sciarpe rosa, magari i rivoluzionari se ne stanno zitti. Ma il negoziante che si vede chiedere le sciarpe rosa, la sorella che vi vede arrivare con la sciarpa rosa, il vostro professore che vi vede con la sciarpa rosa, sono tutte persone che alla fine prima o poi si faranno scappare la parola “sciarpa rosa” piu’ del solito.

In un certo senso, oggi ci sono DUE scienze dette sociologia. Una che procede coi soliti metodi empirici basati su poche misure statistiche. Ed una che ha accesso ad una base dati mai vista prima, accesso garantito a qualcuno ma non a qualcun altro, la quale puo’ svilupparsi su basi sperimentali e usando dati affidabili e modelli realistici.

Mr Facebook, Mr Twitter, Mr Google, ma anche Mr Baidu , Mr QQ(il governo cinese) hanno a disposizione una scienza della societa’ che gli scienziati accademici possono solo sognare, non fosse altro che per mancanza di veri dati.

Quindi, il mondo visto da Facebook me lo immagino come una specie di distesa di monitor. Ogni monitor ha una sua istanza di splunk,  (http://www.splunk.com/) con la quale e’ possibile notare i trend interessanti , veder ribollire la societa’, vedere i nuovi trend in crescita, vedere quando vanno a ribollire le nazioni. Vedere che cosa pensa la gente , in tempo reale, di ogni legge, capire che cosa temono e l’indomani finire in TV a dire le parole che servono a tranquillizzarli.

Se coloriamo di un colore la parola “dittatura” , la parola “protesta” di giallo, la parola “pompino” di bianco, la parola “sesso” di azzurro, la parola “elezioni” in verde, la parola “berlusconi” in blu scuro, la parola “tette” in rosso,  osservando un piccolo motore di ricerca locale possiamo ottenere qualcosa come questo (2):

database_ipc

So che per qualche motivo ci sono delle piccole esplosioni di pompino, la parola elezioni e’ un pochino ovunque, ci sono due venature di protesta in alto a sinistra (dove ci sono meno pompini) e anche tutte le discussioni di politica contengono pochi pompini, anche se ci sono delle considerevoli piccole concentrazioni di pompini vicino a “Berlusconi”.

Questo e’ interessante, perche’ sappiamo che tranne chi ha in mente Berlusconi, quelli che parlano molto di politica parlano poco di pompini. Qualcuno potrebbe anche pensare di darvi piu’ porno per neutralizzarvi. (e/o farvi votare per Berlusconi).

Vedere che cosa dicono gli oppositori e dire, l’indomani, che la tal cosa non e’ vera. Come per caso. Sapete che c’e’ un leader molto bravo che va in giro a dire che se vincete voi allora questa legge fara’ questo e quello? Bene, si dice in due o tre posti che la legge dice l’opposto , e in quel modo si sterilizza il meme.

Potete sapere quali parole si diffondono di piu’ e quali di meno, costruendo un modello di societa’ aggiornato in tempo reale.

E per fare questo non bisogna controllare la rete di comunicazione. Occorre possedere il database: e’ li’ che sono i numeri, le misure che volete.  E i database dei grandi social network sono negli USA,  tranne nel caso cinese.

La stragrande maggioranza delle rivoluzioni , i cambiamenti piu’ turbolenti, sono arrivati quando i governi erano piu’ lenti degli eventi. Ma oggi i governi sono piu’ veloci degli eventi, ed in alcuni casi , se come il governo cinese hanno i loro social network e controllano il database, possono addirittura arrivare in anticipo. Possono veder esplodere una questione sociale solo monitorando la crescente presenza di parole. 

In un certo senso, al governo cinese conviene censurare POCO. In fondo, quello che succede sui social network non e’ cosi’ importante in termini di risultati. Nessuno cambia il mondo SUL social network. Ma dando la possibilita’ alla gente di scrivere sul social network, e’ possibile sapere cosa stia succedendo , e quindi togliere liberta’ nella vita reale.

Sta nascendo un nuovo leader rivoluzionario, un nuovo movimento, una nuova idea? Niente paura, ce ne accorgeremo non appena inizieranno a parlarne.

E poi potremo fare delle misure: vedere se e quanto si diffonde, e quanto velocemente, e con quali parole d’ordine. E potremo anche neutralizzarle, o semplicemente capire se sia il caso di intervenire.

Cosi’ Obama non sapeva della “primavera araba”. Non lo sapeva neanche Mubarak. Ma Mr Facebook lo sapeva. O almeno, aveva il dato: forse non lo avra’ LETTO, forse non lo avra’ cercato o forse non lo avra’ studiato, ma di sicuro il dato ce l’aveva.

Non so se i cinesi si siano accorti di questo fatto, ma la creazione del loro social network e la chiusura a quelli stranieri fa pensare molto.

Cosi’, chi si illude che l’essere umano sia imprevedibile, secondo me si illude. Gli eventi sociali sono oggi modellizzabili in termini numerici, e nella misura in cui siete simili agli altri (moltissimo) succede che siete prevedibili anche voi.

Quindi no, ancora pochi anni, basta che qualche governo si accorga dell’importanza dei social network e chieda l’accesso a database, e il cigno nero ve lo sognate.

Insieme alla vecchia generazione di sociologi.

Uriel

(1) Gli SMS vengono divisi – di solito anche se con certe eccezioni- in pezzi da 140 simboli. Ma per via di encoding e altro, possono ingrossarsi o rimpicciolire a seconda dell’alfabeto in uso: da 7 a 16 bit possono esserci salti significativi. Il problema pero’ e’ che noi accettiamo la PDU cosi com’e’ con un solo ACK, poi quando esce ogni pezzetto ci fa un singolo Part ACK. Il risultato e’ che il rapporto tra numero di ACK e numero di  P-ACK mi dice se la dimensione media dei pacchetti cresce.
(2) No, e’ un esempio, per rendere l’idea.

Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...