Scienza

Big Data, le trappole per la ricerca: dalla fretta del profitto al potere di Google

In "La ricerca scientifica nell’era dei Big Data" (Meltemi) Sabina Leonelli, docente ad Exeter, affronta un dibattito che in Italia è "ancora allo stadio primitivo" ma su cui si giocano presente e futuro. "I governi sono tentati dall’idea di eliminare fondi alla ricerca pensando che con i Big Data sia tutto automatico, ma sarebbe un vero disastro"

Cosa vuol dire usare i Big Data in ambito scientifico? Qual è l’impatto dei colossi dell’hi-tech nella gestione delle informazioni? E i dati raccolti sui social media quanto sono affidabili? Sabina Leonelli, docente di filosofia e storia della scienza all’Università di Exeter, affronta il tema in La ricerca scientifica nell’era dei Big Data (Meltemi), in uscita il 18 ottobre, per capire a che punto siamo nel dibattito e nell’utilizzo dei dati da parte della scienza. Un tema che oggi è tutt’altro che trascurabile: secondo Forbes, ogni giorno nel mondo creiamo 2,5 quintilioni di dati, il cui utilizzo ha un peso sempre maggiore in varie discipline, dalla ricerca alle valutazioni di mercato. Ma esiste un cono d’ombra in cui lo scopo ed i criteri di utilizzo di questi dati sono spesso ignoti o confusi. E ricordiamoci che oggi la raccolta dati è un business, “espressione fondamentale dello sviluppo economico di stampo capitalistico che caratterizza il libero mercato globale. Non a caso Google, Apple, Facebook e Amazon – scrive l’autrice – sono cresciute a velocità vertiginosa fino a essere noverate tra le più ricche e potenti corporazioni del mondo”.

Leonelli, che ha vinto il premio Lakatos 2018 assegnato ai filosofi della scienza e da anni si occupa di come i dati vengono utilizzati allo scopo di produrre conoscenza, va dritta al punto. Perché i Big Data, di cui si parla ancora troppo poco in Italia, possono anche danneggiare scienza e ricerca. “Molti dei dati che ci riguardano, raccolti a livello digitale, vengono collezionati da compagnie ed agenzie di ricerca, e i processi con cui vengono interpretati e diffusi sono molto complessi”. Tradotto significa, ad esempio, che possono essere parziali, corrotti o inservibili perché troppo vecchi.

Ad esempio, “non è detto che i dati raccolti su batteri o funghi prelevati da una foresta e portati in laboratorio dieci, venti, cento anni fa siano una fonte affidabile per spiegare il comportamento della stessa specie di batteri adesso o nel futuro”. Leonelli spiega anche che chi crea le banche dati “tende ad adattarle alle proprie preferenze metodologiche e concettuali, generando così archivi che contengono soprattutto i dati propri e di colleghi con preferenze simili. È anche chiaro – precisa – che chi è esposto in prima persona alla creazione delle banche dati ne capisce meglio il funzionamento, ed è quindi più capace di usare queste infrastrutture a suo vantaggio”. Quello che ne deriva lo ha sperimentato l’autrice stessa tra il 2014 e il 2016 attraverso lo studio di alcuni laboratori africani: chi ci lavora “è spesso in soggezione rispetto a chi fa ricerca in ambiti meglio riconosciuti a livello internazionale”. La conseguenza è “che molti ricercatori africani non osano contestare l’operato di banche dati americane o europee, indipendentemente da quanto questo sia corretto e utile dal loro punto di vista e, dall’altra, che raramente questi ricercatori riescono a farne uso in maniera ottimale”. A tutto questo si aggiunge anche la disparità di rappresentazione. Un esempio? “Il fatto che il gruppo meglio documentato dalla maggior parte dei dati biomedici in circolazione è quello delle classi medio-alte della popolazione di nazioni altamente sviluppate, e soprattutto coloro di origine caucasica e genere maschile“. Da non trascurare, poi, che oggi “i ricercatori che lavorano su Big Data si trovano spesso a lavorare su campioni scelti non per motivi scientifici ma per motivi di pura convenienza – economica, politica o culturale”. Dati che quindi incarnano un potenziale di distorsione di cui nell’analisi non si tiene conto e che “riflette un fenomeno sociale molto più ampio, ossia il monopolio crescente di compagnie con grandi risorse finanziarie e tecnologicheGoogle in particolare – sullo sviluppo di strumenti di gestione e analisi dei dati. L’immediata conseguenza è il ruolo sempre più passivo giocato dal resto della società nel determinare quali dati contino, per cosa, e come vengono utilizzati”.

Quindi ottimismo sì, ma allo stesso tempo problemi in termini di democrazia, legittimità e trasparenza della ricerca. Sia in ambito pubblico che privato, infatti, le informazioni oggi sono “sotto il controllo di enti con interessi primariamente commerciali, sia in ambito pubblico (governo) sia in ambito privato (corporazioni attive nell’ambito della ricerca), con sempre meno opportunità date a chi ha meno potere economico e sociale nel partecipare alla costruzione di strumenti e strategie di analisi e interpretazione”. Negli ultimi anni, infatti, sono centinaia le società nate per commercializzare i nostri dati e Facebook, Amazon, Apple e Google sono i colossi che dispongono di una grande quantità di nostre informazioni. Vendibili se, come facciamo nella maggior parte dei casi, diamo il consenso. Un meccanismo complesso che porta “verso il potenziamento del valore economico dei dati a scapito di quello scientifico“.

In più, c’è il problema dei dati estratti dai social media. “Molta ricerca sulla salute pubblica è influenzata dai media e dai social network. Per esempio, per analizzare quali allergie siano più o meno intense a seconda di stagioni e condizioni climatiche, si può utilizzare Twitter, che ha una politica di rilascio dei dati più permissiva di altri social. È positivo che ci sia un’ulteriore fonte di informazione, ma il rischio è che vengano presi come rappresentativi dei dati parziali: sappiamo infatti che Twitter è poco usato fra chi ha oltre 55-60 anni e dai bambini, così come da alcune classi sociali”.

C’è da dire, però, che “i finanziatori di ricerca fatta sui Big Data cercano risultati velocissimi e di grande impatto economico, spesso senza tenere conto del tempo e della fatica necessari a curare e a indagare i dati in modo da verificarne l’affidabilità, la rappresentatività e l’impatto sociale”. Si può però evitare il peggio? Sì, analizzando i dati non in se stessi, ma in funzione delle relazioni che intercorrono tra di loro e con l’esterno. “Lavorando per dieci anni con infrastrutture che gestiscono dati, è emerso come chi ha investito sin dall’inizio su analisi e risorse abbia ottenuto risultati enormi in termini di accuratezza ed affidabilità. Costruendo invece un database troppo velocemente, ci vogliono poi vent’anni a capire se funziona o no. A volte i governi sono tentati dall’idea di eliminare fondi alla ricerca pensando che con i Big Data sia tutto automatico, ma sarebbe un vero disastro, perché toglierebbe tutte le risorse già presenti in grado di verificare ed interpretare correttamente i dati”. Meccanismi che è necessario spiegare in Italia perché qui, conclude l’autrice, “il dibattito è ancora a uno stadio primitivo“.