Scienza

I Big Data possono avere conseguenze miracolose, ma io temo tre enormi pericoli /2

Continua da qui

Nel 2008 uscì un articolo molto ardito, fonte di un acceso dibattito: La fine della teoria: il diluvio di dati rende obsoleto il metodo scientifico (in inglese). Il libro del 2013 Big data. Una rivoluzione che trasformerà il nostro modo di vivere e già minaccia la nostra libertà (“BD” nel seguito) riprende questa tesi nel quarto capitolo. Premettendo che temo una tale rivoluzione come la peste, provo a darvene un’idea.

BD è un libro davvero interessante, ricco di esempi. Il tema di fondo è che la gestione di grandi masse di dati (Big Data) costituisce non solo un miglioramento, ma un capovolgimento della statistica e del suo uso. Finora le ridotte capacità di calcolo ci avevano costretto a raffinare i metodi di campionamento dei dati; avete presenti le società che fanno sondaggi, stando attente a bilanciare l’insieme degli intervistati fra le varie fasce d’età, istruzione, provenienza eccetera? Bene, dice BD, non è più necessario: la potenza di calcolo e l’“apprendimento delle macchine” consentono di trattare tutti i dati.

Le conseguenze appaiono quasi miracolose. Si ottengono previsioni più tempestive, traduzioni più accurate, azioni più mirate esaminando la totalità dei dati disponibili anche senza avere un modello, una spiegazione dei fenomeni considerati. Non importa se i dati sono “sporchi”, incompleti, anche viziati da errori: la loro massa rende meglio di ogni campione ripulito e di ogni procedimento logico, che anzi risulterebbero fuorvianti. Cito la battuta corrente nella squadra Microsoft di traduzione automatica: “Ogni volta che un linguista se ne va, la qualità aumenta”.

Gli autori ci avvertono dei pericoli: uno è l’invasione della privacy. È dimostrata l’inutilità dell’anonimato in rete: se si vuole, si può trovare ogni individuo grazie al suo profilo. Ancora più pericolosa è l’idea che si possa prevenire il crimine. BD stesso cita Minority report; non occorrono le capacità paranormali immaginate da Philip K. Dick, basta l’analisi dei dati. Tutto questo, secondo me, ha un nome: pregiudizio. BD tratta l’argomento in modo tecnico, propone soluzioni, ma a me vengono i brividi: un conto è il pregiudizio di un poliziotto in carne ed ossa, con cui posso comunque sperare di ragionare; ma come potrò mai discutere con l’algoritmo che mi ritiene pericoloso e limita le mie libertà? Supponiamo che, controllando tutti i bolognesi con barba, l’algoritmo riesca a intercettare un sacco di scippatori, pur senza poterne dare una ragione. Bravo, però io, che non ho mai scippato nessuno, non voglio essere perquisito ogni volta che scendo dall’autobus!

Temo però che il pericolo maggiore venga dall’idea di riformare il metodo scientifico. Non serve più un modello di causa-effetto – dicono l’articolo e il libro – è sufficiente la correlazione! Basta col chiedersi il perché, è sufficiente sapere cosa! L’articolo cita il genetista J. Craig Venter che, analizzando grandi masse di organismi, nel 2005 scoprì migliaia di nuove specie di batteri; ammette che di tali specie Venter in fondo non sa niente, ma che ce n’importa? Ecco, no: a me importa. Non m’interessa solo il risultato, voglio sapere cosa significa.

C’è anche un altro problema: i metodi di BD si basano su grandi masse di dati prodotti da umani; ma poi si baseranno su dati prodotti da questi stessi metodi. Per esempio, BD riporta che si fanno buone traduzioni automatiche basandosi su grandi masse di traduzioni anche imperfette; ma umane! Cosa succederà quando la maggior parte delle traduzioni sarà automatica? Non ci sarà una deriva come per le fotocopie delle fotocopie, sempre più lontane dall’originale?

Ho tre grandi alleati. Henri Poincaré: “La scienza è fatta di dati come una casa di pietre. Ma un aggregato di dati non è una scienza più di quanto un mucchio di pietre sia una casa”. Karl Popper: “La teoria è la rete che gettiamo per raccogliere il mondo, razionalizzarlo, spiegarlo, dominarlo. Il nostro lavoro è rendere le maglie della rete sempre più strette”. Albert Einstein: “È sbagliato provare a fondare una teoria solo sulle grandezze osservabili. È la teoria che decide cosa possiamo osservare”.

Conoscere un fenomeno per me non è conoscerne la profonda natura, come avrebbe voluto un filosofo naturale rinascimentale (vedi il mio post precedente), ma neanche saper fare una previsione azzeccata ma cieca: come per la intelligenza artificiale spiegabile, voglio avere un modello esplicativo. Però mi chiedo: non sarò come il filosofo naturale che rifiutava la rivoluzione galileiana?