laR+ Società

Un gioco di specchi tra IA e mente umana

Intelligenze artificiali in grado, in contesti sperimentali, di prevedere il comportamento umano. E ricercatori che scrivono ‘in stile ChatGpt’

(Depositphotos)
4 luglio 2025
|

Due ricerche pubblicate nei giorni scorsi rivelano un curioso gioco di specchi tra esseri umani e Llm (i modelli linguistici di grandi dimensioni come ChatGpt): da un lato questi strumenti starebbero modificando il modo in cui scriviamo articoli scientifici, dall’altro dimostrano capacità sorprendenti nel prevedere e simulare il comportamento umano.

Il primo studio, condotto da Dmitry Kobak dell’Università di Tubinga e pubblicato su ‘Science Advances’, ha analizzato oltre 15 milioni di abstract biomedici pubblicati tra il 2010 e il 2024. I ricercatori hanno applicato un approccio ispirato agli studi sulla “mortalità in eccesso” durante la pandemia, cercando invece un “vocabolario in eccesso” dopo il rilascio di ChatGpt. Il risultato? Centinaia di parole hanno improvvisamente aumentato la loro frequenza, tra cui “delves” (indaga approfonditamente), “underscores” (sottolinea), “showcasing” (mettendo in mostra), “potential” (potenziale) e “crucial” (cruciale). Si tratta di una trasformazione del linguaggio scientifico precedente, superiore a quella avvenuta durante la pandemia, quando la ricerca – e quindi le parole della ricerca – si è improvvisamente dedicata a virus ed epidemie.

Lo studio stima che almeno il 13,5% degli abstract pubblicati nel 2024 sia stato elaborato con Llm, con differenze significative tra discipline, Paesi e riviste. Le scienze computazionali mostrano, prevedibilmente, percentuali più elevate, così come alcuni Paesi non anglofoni come Cina, Corea del Sud e Taiwan. Il metodo scelto non permette ovviamente di distinguere tra uso di ChatGpt e imitazione di uno stile percepito come più “scientifico” o influenza dei revisori. Del resto l’uniformità linguistica può essere un problema in un testo letterario, non in un articolo scientifico. Quanto alle imprecisioni degli Llm, dovrebbero essere controllate e corrette dagli umani. La questione più delicata riguarda i pregiudizi impliciti che troviamo negli Llm, ma su questo lo studio non dice granché.

Predizioni

Più completa, e interessante, la seconda ricerca, pubblicata su ‘Nature’ da Marcel Binz e colleghi dell’Helmholtz Center di Monaco. Il team ha sviluppato Centaur, un modello computazionale addestrato su un dataset chiamato “Psych-101”, contenente dati comportamentali di oltre 60’000 persone che hanno effettuato più di 10 milioni di scelte in 160 esperimenti psicologici.

I risultati sono impressionanti. Centaur non solo prevede il comportamento di partecipanti mai visti prima meglio dei modelli cognitivi esistenti, ma generalizza anche a esperimenti completamente nuovi, storie di copertura modificate e domini inediti. E Centaur può anche guidare la ricerca scientifica: analizzando i dati di un esperimento sulle decisioni basate su più fattori, il sistema ha identificato una precedentemente sconosciuta strategia decisionale a due fasi (prima si sceglie in base alle valutazioni della maggioranza degli esperti e poi, in caso di parità, si considera la valutazione dell’esperto con maggiore validità). Questa strategia ibrida, che combina due euristiche decisionali note ma mai considerate insieme, si è rivelata più accurata dei modelli tradizionali nello spiegare il comportamento umano.

Diciamo subito che l’intelligenza artificiale non ha simulato la mente umana o è arrivata a predeterminare il comportamento umano come capita nei film. Centaur ha dimostrato, e non è poco, di saper generalizzare appropriatamente alcuni pattern comportamentali osservati in contesti sperimentali specifici, per quanto generalizzabili. In pratica si tratta di catturare regolarità comportamentali sufficienti per guidare la ricerca psicologica. Centaur potrebbe essere utilizzato per la prototipazione in silico di studi sperimentali, aiutando i ricercatori a ottimizzare gli esperimenti e ridurre il numero di partecipanti necessari. Arrivando alla pubblicazione di articoli pieni di “delves”, “underscores”, “showcasing”, “potential” e “crucial”.