Google continua a perfezionare i suoi studi in ambito di Intelligenza artificiale al servizio della medicina. In un nuovo test, Google Research valuta la capacità del suo nuovo tool di intelligenza artificiale specializzato in ambito medico e clinico. Lo studio, pubblicato in un articolo su Nature, ha al centro Med-PaLM, un Large Language Models (LLM) specializzato. Nonostante diverse limitazioni ancora esistenti, Med-PaLM il modello linguistico di grandi dimensioni (LLM) di Google ha riscosso buoni risultati nei test di prova e presto questa Chatbot potrebbe diventare un valido supporto per il medico e per i professionisti sanitari.
A dirlo, sono i ricercatori della Google Research che hanno appena diffuso i risultati di un nuovo benchmark. Med-PaLM nasce dall’ottimizzazione di PaLM e della sua variante Flan-PaLM. Dai risultati emerge che un gruppo di medici ha giudicato solo il 61,9% delle risposte in formato lungo Flan-PaLM scientificamente valide, rispetto al 92,6% delle risposte Med-PaLM, alla pari con le risposte generate dai medici (92,9%). Allo stesso modo, il 29,7% delle risposte Flan-PaLM è stato valutato come potenzialmente in grado di portare a esiti dannosi, in contrasto con il 5,8% per Med-PaLM, paragonabile alle risposte generate dal medico (6,5%).
I modelli di intelligenza artificiale (AI) hanno grandi potenzialità di utilizzo in medicina, come l’archivio e il recupero delle conoscenze e il supporto alle decisioni cliniche. Purtroppo, i modelli esistenti hanno evidenziato ancora diversi limiti, per questo numerosi test sono necessari per lo sviluppo di tali strumenti nella pratica clinica. Alcuni studi hanno fatto emergere il rischio potenziale di questi tool di IA specializzata di generare disinformazione medica o aumentare pregiudizi che potrebbero esacerbare le disparità di salute. Spesso però, queste valutazioni si basano su stime automatizzate e su benchmark limitati, come i punteggi sui singoli test medici, che potrebbero non tradursi in affidabilità o valore nel mondo reale. Per valutare quanto gli LLM siano in grado di codificare la conoscenza clinica, il team di ricercatori di Google Research ha analizzato la capacità di questi modelli di rispondere a domande mediche.
Il benchmark, chiamato MultiMedQA, combina sei set di dati di risposta a domande esistenti che coprono medicina professionale, ricerche e domande dei consumatori, e HealthSearchQA, un nuovo set di dati di 3.173 domande mediche comunemente cercate online. Med-PaLM è il modello risultante di precedenti versioni PaLM (un parametro LLM da 540 miliardi) e la sua variante, Flan-PaLM. In studi precedenti, i ricercatori hanno scoperto che Flan-PaLM aveva raggiunto prestazioni all’avanguardia su diversi set di dati. Nel set di dati MedQA comprendente domande in stile esame di licenza medica negli Stati Uniti, FLAN-PaLM ha superato i precedenti LLM all’avanguardia di oltre il 17%. Tuttavia, mentre FLAN-PaLM si è comportato bene su domande a scelta multipla, la valutazione umana ha rivelato lacune nelle sue risposte di lunga durata alle domande mediche dei consumatori. Per risolvere questo problema, gli autori hanno utilizzato una tecnica chiamata ‘sintonizzazione del prompt delle istruzioni’ per adattare ulteriormente Flan-PaLM all’ambito medico. ‘L’ottimizzazione del prompt delle istruzioni’ viene introdotta come approccio efficiente per allineare gli LLM generalisti a nuovi domini specialistici.
di Lella Simone