Google sta lavorando a una versione evoluta del traduttore vocale. È ancora sperimentale, ma promette bene: pronuncia le frasi tradotte con la voce di origine, è veloce e in futuro potrebbe commettere meno errori.
Il dialogo fra persone che parlano lingue differenti è sempre più agevole grazie alla tecnologia. Diventerà ancora più naturale grazie a Translatotron, un nuovo modello di traduzione vocale messo a punto da Google, che supera di gran lunga quelli attuali. Prima di tutto perché è in grado di tradurre il parlato in parlato, senza la fase intermedia del testo scritto, il che dà maggiore naturalezza e scorrevolezza alla traduzione. In secondo luogo, perché riesce persino a mantenere, nella traduzione, la voce originaria della persona che ha parlato.
Nella pagina ufficiale del suo blog, Google descrive Translatotron come un “nuovo sistema sperimentale“, il che indica che non sarà disponibile nell’immediato al grande pubblico. Per comprendere le rivoluzioni introdotte con questo nuovo metodo bisogna sapere prima per sommi capi come funziona un traduttore. Attualmente la traduzione avviene in tre passaggi: il primo è il riconoscimento vocale automatico, che trascrive il parlato in testo. Il secondo è la traduzione automatica, che traduce questo testo scritto in un’altra lingua scritta. L’ultimo è la sintesi dal testo tradotto alla voce.
L’esistenza di questi tre passaggi, svolti ad esempio dal famoso Google Translate, rallenta la velocità di traduzione perché c’è un’unica fase che viene svolta, dal parlato originale direttamente nel parlato tradotto. Non solo, secondo Google questa nuova tecnica limita gli errori che intercorrono tra il riconoscimento e la traduzione, e favoriscono una migliore gestione delle parole che non devono essere tradotte, come i nomi propri.
Come? Mediante spettrogrammi in ingresso e in uscita (uno spettrogramma sorgente e uno spettrogramma in output del contenuto tradotto nella lingua di destinazione). Fa anche uso di altri due componenti “addestrati” separatamente e riconducibili all’impiego dell’Intelligenza Artificiale: un vocoder neurale (voice encoder, codificatore vocale) che converte gli spettrogrammi di uscita in forme d’onda e, facoltativamente, un codificatore di diffusori che può essere impiegato per mantenere il timbro della voce dell’oratore originario nel parlato tradotto sintetizzato. In altre parole, la traduzione non avrà la voce del traduttore di Google, ma quella di chi ha parlato nella sua lingua d’origine.
Chi fosse curioso di sentire il risultato con le sue stesse orecchie, può collegarsi a questa pagina e riprodurre le registrazioni delle traduzioni di prova dallo spagnolo all’inglese, sia in ingresso che in uscita.
Per valutare l’attendibilità delle traduzione eseguite con Translatotron, i ricercatori di Google hanno usato il punteggio BLEU (bilingual evaluation understudy), che quantifica le differenze tra una traduzione automatica e una o più traduzioni umane di riferimento della stessa frase di origine. Prevede test standard da condurre, e il punteggio viene assegnato automaticamente in funzione del numero di corrispondenze mancate. Il punteggio è inferiore a quello di un traduttore convenzionale in tre fasi, ma ci sono ampi margini di miglioramento. In questo momento, infatti, l’importante era dimostrare la fattibilità della traduzione diretta da voce a voce, e il responso è positivo. È un punto di partenza per le future ricerche sui sistemi di traduzione vocale da voce a voce.