Nell’era di internet è apparso un nuovo fenomeno: l’accumulazione di grandi insiemi di dati. La quantità di dati archiviati in forma digitale sta crescendo in maniera esponenziale e riguarda ogni aspetto della nostra vita: questa situazione pone una serie di problemi nuovi da considerare, dalla privacy dei singoli enormi alla qualità dell’informazione che può essere estratta da queste banche dati. La domanda che molti come il “guru” informatico Chris Anderson, si pongono, è se i dati da soli, senza un modello, siano sufficienti per comprendere i fenomeni e se questa nuova situazione implichi “la fine della teoria”. Per avere un esempio, è sufficiente ricordare che i Maya non avevano formulato un modello fisico per spiegare il movimento degli astri ma dall’elaborazione delle osservazioni astronomiche effettuate nell’arco di centinaia di anni sono stati capaci di fare delle previsioni molto accurate non solo delle eclissi di Luna, ma, cosa più difficile, delle eclissi di Sole. Il problema era tuttavia ben posto: oggi, infatti, sappiamo che non solo esistono delle leggi deterministiche che regolano il moto dei pianeti (la legge di gravità) ma che il sistema solare stesso mostra un comportamento caotico su scale di tempo molto più lunghe di quelle interessanti per le previsioni utili all’uomo. Ovvero la precisione finita con cui possiamo conoscere lo stato del sistema solare oggi causerà una differenza rilevante per la previsione della posizione dei pianeti sono tra qualche milione di anni.
Per contro, la nostra conoscenza imperfetta dello stato dell’atmosfera oggi rende le previsioni meteorologiche non affidabili su tempi dell’ordine di qualche giorno. Questo in quanto l’atmosfera, come il sistema solare, è caotico, ma con numero diverso di variabili rilevanti che ne descrivono lo stato – dimensionalità. In pratica, le regolarità in un sistema con alta dimensionalità appaiono su scale di tempo che sono e rimarranno inaccessibili per quanto le banche dati digitali possano sperabilmente crescere (in termini tecnici si fa riferimento al Lemma di Kac).
Dunque, nonostante un sistema sia regolato da leggi deterministiche note, spesso non è possibile fare delle predizioni sulla sua evoluzione nel lungo periodo. La legge di gravità che muove i pianeti, o le leggi della fluidodinamica che descrivono la dinamica dell’atmosfera o le leggi dell’elasticità che regolano i movimenti delle placche terrestri e dunque sono alla base dei terremoti, sono tutte leggi della fisica ben note. Malgrado questo, poiché i sistemi cui si applicano non sono semplici, esiste un orizzonte di predicibilità, un tempo oltre il quale non è possibile effettuare una previsione affidabile perché il sistema diventa caotico (nel caso dei terremoti, non è possibile conoscere lo stato del sistema ad un certo tempo, se non in maniera molto grossolana, e dunque è impossibile effettuare delle previsioni affidabili). La situazione diventa poi molto più complicata se le leggi deterministiche che regolano la dinamica del sistema non sono note o anche neppure esistono, nel senso che vi sono sistemi la cui evoluzione è regolata o da leggi statistiche o che cambiano nel tempo (basti pensare all’economia…).
Possiamo dunque usare le moderne banche dati digitali come la civiltà Maya utilizzò i dati astronomici, ovvero trovare delle “regolarità” senza un modello di riferimento per capire quello che succederà in futuro? Possiamo sperare di trovare delle correlazioni nei dati che legano il cambiamento di alcune grandezze e usare la conoscenza di queste correlazioni, anche senza capirne l’origine, per predire il comportamento futuro di sistema? Noi siamo dell’idea che la “fine della teoria” è un miraggio non solo perché una correlazione a posteriori (dunque non una genuina predizione di una teoria) non implica in genere l’esistenza di un nesso causale (correlation does not imply causation), ma anzi può essere molto fuorviante, ma soprattutto perché i sistemi complessi, dai sistemi fisici ai sistemi sociali, sono caotici. Se l’accumulazione dei dati rappresenta certamente una preziosa fonte d’informazioni che può essere utile per l’elaborazione di previsioni, solo una comprensione teorica, frutto di una ricerca fondamentale più profonda, può guidarci a ben interpretare il dato stesso.