Sta per giungere al termine un progetto di successo voluto dalla Commissione Europea. Si chiama READ e ha portato alla creazione di un'Intelligenza Artificiale capace di leggere, trascrivere e indicizzare i manoscritti antichi. Ha una precisione molto buona ed è già online: per usarla basta iscriversi.
La Commissione Europea ha finanziato il progetto READ per la realizzazione di una tecnica informatica che permette di trascrivere automaticamente i testi dei manoscritti antichi. Un patrimonio immenso di cui l’Europa è ricchissima, ma che è di difficile consultazione. Il rischio concreto è che i manoscritti vengano conservati, ma non più consultati, nonostante la loro lettura riservi ancora molte informazioni utili e preziose per gli studiosi.
A parte il doversi recare nei siti in cui i manoscritti sono conservati, il problema è riuscire a leggere le scritture degli amanuensi che, prima dell’invenzione della stampa, si occupavano di trascrivere a mano i libri. Ogni “mano” ha una grafia diversa, non sempre di facile comprensione. In più ci sono gli ostacoli linguistici.
Ricercatori di Austria, Svizzera, Germania, Grecia, Spagna, Finlandia, Francia e Regno Unito si sono rimboccati le maniche e hanno messo mano a questo guazzabuglio medievale con l’intento di ricavarne testi digitali facilmente consultabili e fruibili. Per ottenere il risultato voluto hanno creato Transkribus, una summa di tecnologie avanzate e automatizzate di trascrizione e indicizzazione, che chiama in causa anche l’Intelligenza Artificiale
Transkribus è in grado di riconoscere con grande precisione scritture diverse, impaginazioni particolarmente ostiche, lingue diverse e persino la scrittura da destra a sinistra, tipica ad esempio dei testi in arabo o in ebraico. È già in grado di contenere la percentuale di errori fino al 3,5% circa per la scrittura a mano.
Si può immaginare Transkribus come una versione molto avanzata e raffinata dei comuni programmi di OCR (Optical Character Recognition, Riconoscimento Ottico dei Caratteri). Alcuni scanner li hanno in dotazione, e permettono di scansionare un documento e salvarlo come un file di testo. Funzionano solo con lettere stampate al computer e i risultati non sono sempre soddisfacenti.
Transkribus invece funziona bene. È frutto di cinque anni di lavoro ed eredita i risultati del precedente progetto Transcriptorium. Per metterlo a punto gli esperti si sono serviti dell’Intelligenza Artificiale e dei processi di apprendimento automatico. Hanno “istruito” il software dandogli in pasto un set iniziale di 50-100 pagine manoscritte, da elaborare con l’assistenza dell’utente. Man mano che Transkribus “imparava” è diventato sempre più preciso. Adesso siamo appunto a una percentuale di errore del 3,5%, ma l’Intelligenza Artificiale continua ad allenarsi e a migliorare le sue capacità di elaborazione del linguaggio naturale.
Il software è disponibile al pubblico, per usarlo basta registrarsi sul sito del progetto (dove ci sono anche molti video che spiegano come usare il software, in lingua inglese), cosa che hanno già fatto 14mila utenti. Fra loro molti ricercatori che lavorano con testi del 17mo secolo, o che devono studiare tipi specifici di documenti, come i manoscritti in caratteri gotici. È uno strumento valido anche a livello statale: gli archivi nazionali di Finlandia e Paesi Bassi, per esempio, stanno valutando l’integrazione di questa tecnologia nel lavoro di digitalizzazione degli archivi.
Günter Mühlberger dell’Università di Innsbruck spiega che questo strumento potrebbe “rivoluzionare l’accesso ai documenti storici e potrebbe dare un contributo importante alla digitalizzazione degli archivi storici”. Transkribus è già in grado di “indicizzare documenti dal Medioevo fino ad oggi”. Tutto tramite una “interfaccia di nuova concezione che è semplice e intuiva, e che consente agli utenti di caricare documenti, lavorare sui file, fare il riconoscimento del testo ed esportare i dati in diversi formati standard”, afferma Mühlberger.
Il progetto sta riscuotendo consensi e giudizi molto positivi, adesso è il momento di vagliare le opzioni per la sostenibilità dell’infrastruttura elettronica, in vista della conclusione del progetto, fissata per giugno 2019.