Dimmi quanti emoji usi e ti dirò che voti in pagella hai: non è semplicemente il riadattamento di un vecchio detto, ma si tratta della promessa di un vero e proprio sistema intelligente in grado di prevedere il rendimento scolastico di uno studente. Una nuova tecnologia, basata sull’Intelligenza artificiale può infatti di analizzare i tweet e stimare con una precisione superiore al 90% i risultati accademici degli studenti. Il sistema, testato dagli scienziati della National Research University Higher School of Economics, una delle principali università russe, si basa su un modello computerizzato addestrato utilizzando migliaia di punteggi di test e un milione di post sui social media. Lo scopo è stato quello di insegnare alla tecnologia a distinguere performance alte da quelle basse in base alle caratteristiche testuali condivise nei post. Ebbene, il nuovo sistema intelligente ha dimostrato che gli studenti che discutono di argomenti scientifici e culturali, oltre a scrivere post lunghi e con tante parole, hanno buone probabilità di ottenere punteggio buoni. Al contrario coloro che usano molti emoji, parole o intere frasi scritte in maiuscolo, tendono ad avere punteggi più bassi a scuola.
La mente dietro il nuovo sistema è lo scienziato Ivan Smirnov, che ha basato i suoi esperimenti sui punteggi ottenuti nei test da 2.468 studenti che hanno preso parte al Program for International Students Assessment, che è un programma utilizzato per misurare le prestazioni degli alunni in matematica, scienze e lettura. Sono stati inoltre analizzati oltre 130mila post pubblicati sul social media europeo VKontakte, un’alternativa a Facebook. I risultati sono stati confrontati con l’Esame di stato unificato medio, che è l’equivalente del test SAT negli Stati Uniti. In totale, sono stati analizzati più di 1 milione di post di quasi 39mila utenti. Il team ha anche preso in considerazione i post condivisi dagli studenti, più di 130mila. Complessivamente, il sistema è stato addestrato su 1,9 miliardi di parole, con 2,5 milioni di parole uniche e il modello è andato a lavorare con la classificazione delle caratteristiche testuali nei post. L’uso di parole in maiuscolo, degli emoji e delle esclamazioni è risultato correlato negativamente con il rendimento scolastico. Al contrario, l’uso di parole latine, frasi lunghe, parole varie sono risultati correlati positivamente con il rendimento scolastico.
Smirnov è andato ancora più a fondo selezionando 400 parole legate a punteggi più alti e più bassi. Ebbene, nel gruppo di studenti con punteggi più alti sono state trovate parole inglesi (above, saying, yours, must); parole legate alla letteratura (Bradbury, Fahrenheit, Orwell, Huxley, Faulkner, Nabokov, Brodsky, Camus, Mann); concetti relativi alla lettura (leggere, pubblicare, libro, volume); termini e nomi relativi alla fisica (Universo, quantum, teoria, Einstein, Newton, Hawking); e parole relative ai processi di pensiero (pensare, memorizzare). Le parole legate a punteggi più bassi, incluse quelle con più errori di ortografia, sono: nomi di popolari giochi per computer, concetti relativi al servizio militare (esercito, giuramento, ecc.), termini relativi all’oroscopo (Ariete, Sagittario) e parole relative a incidenti di guida e automobilistici (collisione, polizia stradale, ruote). “Sulla base di queste regole, il nostro modello ha identificato studenti con rendimento scolastico alto e basso utilizzando i post Vkontakte con una precisione fino al 94 per cento. Abbiamo anche provato ad applicarlo con successo a brevi testi su Twitter”, conclude Smirnov.