Il mondo è pieno di cose invisibili all’occhio umano, ma computer e algoritmi possono svelarle. Un occhio elettronico può sapere cosa si nasconde dietro l’angolo di un palazzo, fuori da una finestra chiusa, in mezzo alla nebbia o sotto la copertina di un libro. Può persino decifrare una conversazione solo guardando le vibrazioni di un oggetto abbastanza vicino. Sembra fantascienza ma è lo stato dell’arte della disciplina nota come computer vision.
Uno tra i primi studi sul tema è quello firmato da Antonio Torralba e Bill Freeman, entrambi docenti del Massachusetts Institute of Technology. Pare che nel 2012 Torralba abbia notato una strana ombra sulla parete della sua stanza d’albergo; un’osservazione più attenta rivelò che non si trattava di un’ombra ma dell’immagine proiettata del cortile esterno. Il “proiettore” era la finestra, che agiva come il foro di una camera oscura.
Pochi mesi dopo c’è stata la pubblicazione, dove si spiega che controllando la luce che passava dalla finestra e filmando con un iPhone, è stato possibile ricostruire un’immagine piuttosto fedele del cortile. Qualche tempo dopo, con la stessa tecnica e gli stessi algoritmi questi ricercatori – insieme ad altri colleghi – hanno mostrato come sia possibile vedere dietro a un angolo. Stesso argomento trattato da Ramesh Raskar e i suoi colleghi, in uno studio separato pubblicato sempre nel 2012.
Diciamo che siamo all’angolo di un edificio, e dietro ad esso c’è una persona con una maglietta blu. Ci sarà una piccolissima quantità di luce blu che si riflette nel nostro campo visivo (al suolo o sugli altri oggetti). L’occhio umano non la può percepire ma una fotocamera digitale con i giusti algoritmi non solo può vedere la maglietta, ma anche tutta la persona e i suoi movimenti.
L’estate scorsa, poi, è stata la volta delle “piante fotografiche“. Riprendendo le ombre e i riflessi generati delle foglie di una pianta d’appartamento, è possibile ricostruire l’intera stanza in cui si trova. Ancora più strabiliante, filmando le vibrazioni delle foglie si possono ricostruire i suoni intorno ad esse; in altre parole, si può usare una pianta (o un sacchetto di patatine) in un microfono – anche in un ambiente insonorizzato.
I risultati sono stati abbastanza validi da stimolare la DARPA (Defense Advanced Research Projects Agency, agenzia USA che si dedica alla ricerca in ambito militare) ad avviare il progetto REVEAL (Revolutionary Enhancement of Visibility by Exploiting Active Light-fields) finanziato con 27 milioni di dollari, a beneficio di diversi laboratori impegnati in questo specifico settore.
Le applicazioni militari non sono l’unica possibilità; un’altra possibile applicazione di questa tecnologia riguarda le auto a guida autonoma, sulle quali di sicuro sarebbe utile la possibilità di vedere se sta arrivando un’altra auto o un pedone dietro a un ostacolo. Queste tecnologie potrebbe inoltre rivelarsi molto utili in situazioni di emergenza e soccorso.
In ogni caso, usare un sensore digitale per catturare la luce invisibile è solo una parte dell’equazione, la più semplice. Il cuore del lavoro svolto da Torralba e Freeman è invece la realizzazione di algoritmi che possono effettivamente costruire un’immagine comprensibile partendo dai dati grezzi. Si tratta di amplificare piccole modifiche nei colori e o movimenti microscopici, come quello di un sacchetto di patatine che risponde alle vibrazioni generate da una conversazione. Per completare la ricostruzione, bisogna aggiungere anche ciò che manca, o in altre parole estrapolare i dati mancanti nelle aree dove manca la luce. Il trucco è individuare il segnale in un mare di rumore.
Usando questi complessi algoritmi un angolo di strada diventa una videocamera, o almeno parte di essa, che ci permette di vedere cosa c’è al di là del muro.
È anche possibile aggirare letteralmente un ostacolo e vedere al di là di una barriera. Per il momento, come ha mostrato il professor Ramesh Raskar, è necessario un complesso e costoso sistema laser. Una difficoltà dovuta agli algoritmi e alle macchine necessarie per eseguirli: nel 2012 il sistema costava circa mezzo miliardo di dollari. Uno studio dello scorso marzo però mostra come nuovi algoritmi possano ridurre drasticamente tali costi, insieme videocamere di tipo SPAD.
Queste ultime non sono delle macchine fotografiche tradizionali, ma sistemi in grado di misurare un fotone per volta (l’acronimo infatti sta per Single Photon Avalanche Diode). Una serie di questi sensori – relativamente economici – può garantire velocità e precisione nel riconoscimento dell’immagine. Nei prossimi anni questo tipo di sensore potrebbe trovare posto sulle auto a guida autonoma, già dotate di LIDAR, per renderle più efficienti e sicure.
Esiste dunque una nuova generazione di algoritmi, insieme a nuovi tipi di sensori, che mette le macchine (non solo le automobili) in condizioni di vedere l’invisibile. Ciò che si nasconde dietro a un angolo o una parete diventa esplicito, e questo comprensibilmente apre la strada a una pletora di nuove applicazioni. E i costi sono destinati a scendere, come suggerisce la ricerca di Christos Thrampoulidis: sfruttando le occlusioni, cioè le zone dell’immagine coperte da una qualche ostacolo, il ricercatore ha dimostrato che è possibile ricostruire la scena senza ricorrere al singolo fotone né alla velocità dei sistemi laser. Si apre quindi la possibilità di usare semplici sensori CCD, come quelli presenti in molte macchine fotografiche.
Gli esperimenti in corso, mirati tanto a perfezionare queste tecnologie quanto a svilupparne di nuove, includono la mappatura di alcune caverne sulla luna, la lettura di un libro chiuso o la visione attraverso la nebbia.