Tecnologia

Nuove personalità dei linguaggi digitali

Alle persone piace conversare con la realtà digitale come a uno sportello. Per questo la comunicazione diventerà sempre più personale e personificata

Un’evoluzione nell’aspetto, ma anche nel modo di interfacciarsi

È passato da molto il tempo in cui gli uomini conoscevano la tecnologia che impiegavano per vivere. Magari non a fondo, ma un’idea perlomeno ce l’avevano. Poi è giunta l’età moderna, e via via questa conoscenza non si è persa, ma si è complicata, collocandosi vieppiù in settori specialistici. Così oggi la nostra vita è colma di cose che adoperiamo costantemente ma di cui ignoriamo non solo il funzionamento, ma, in alcuni casi, pure l’esistenza. Una di queste è il Large Language Model (LLM), un tipo di programmazione che esiste da prima dell’Intelligenza Artificiale (IA) e che oggi viene impiegata appunto a nostra insaputa nei settori più diversi (elaborazione testi, media e intrattenimento naturalmente, ma anche sanità, finanza…) per scopi altrettanto diversi, e i cui sviluppi potranno essere parecchio sorprendenti e fantasiosi, come si scoprirà leggendo l’intervista a Fabio Crestani, Professore presso la Facoltà di scienze informatiche dell’Usi, le cui principali aree di ricerca sono l’Information retrieval, il text mining e le biblioteche digitali.

Iniziamo dalle basi: cosa è un Large Language Model?

Semplificando molto, un Large Language Model (LLM) è un modello che è in grado di costruire delle frasi, ciò significa che, partendo dall’input di una frase di due o tre parole, il sistema è in grado di capire quello che voglio dire e, grazie a strutture matematiche, “indovinare” la parola successiva. Più una sequenza di parole è lunga meglio è, in quanto a una parola sola può essere accoppiata qualunque cosa, mentre con due già il campo si restringe, tre ancora di più a così via. Il processo è “autoregressivo”, cioè ogni parola generata diventa parte del contesto per indovinare quella successiva. Per elaborare un LLM bisogna fare molti calcoli basati su un intensivo training a base di numerosissimi testi scritti e parlati.

Un training simile a quello dell’Intelligenza Artificiale?

Sì, il Large Language Model è una componente dell’Intelligenza Artificiale, anche se gli LLMs sono stati inventati prima che si parlasse di IA, perché sono semplicemente dei modelli matematici che vengono usati per il riconoscimento del parlato. Sono ancora usati per il riconoscimento del parlato, in quanto se il mio sistema non è in grado di capire una parola perché ad esempio c’è un rumore di fondo, è il Large Language Model che gliela suggerisce, limitando di molto le possibilità. In tempi più recenti questi modelli sono stati estesi e adesso sanno fare quasi tutto.

Quindi quando noi usiamo Siri sul nostro cellulare, lui per capire quello che diciamo usa un Large Language Model?

Oggi si usano anche modelli più complessi, però sono tutti basati su LLMs, i quali, come dicevo, oltre al riconoscimento vocale e alla scrittura vengono usati per molte altre cose, perché quasi tutto può essere ridotto a una forma di linguaggio, a input e output, a modelli non identici ma simili. Una delle mie aree di ricerca è l’Information retrieval, ossia il recupero delle informazioni tramite motori di ricerca come Google, Yahoo, Bing ecc. Negli ultimi due anni si è visto che alla gente piace usare dei sistemi conversazionali, per cui hanno cominciato a usare i Large Language Models perché vogliono che la ricerca diventi sempre più simile a una conversazione con una persona: io chiedo quello che voglio, il sistema mi dà dei risultati, ma al contrario di quello che succede ora non sarò più solo io ad affinare la mia ricerca, ma sarà pure il sistema che mi potrà chiedere ulteriori spiegazioni su quello che sto cercando. Immaginiamo che io digiti “treno per Milano”; il sistema non sa quando voglio partire, quindi me lo chiederà, e magari mi suggerirà pure qual è il treno più conveniente, in una conversazione simile a quella che potrei avere a uno sportello. L’esempio è semplice, ma le cose possono diventare più complicate.

E si addestra come l’IA?

Per creare un LLM servono dei modelli matematici complessi, di cui noi all’Usi ci occupiamo, e sistemi informatici potenti per fargli imparare le associazioni di parole, che usano enormi volumi di dati. In qualsiasi lingua, per di più. Adesso, per esempio si sta discutendo un progetto per creare un LLM basato sulle lingue nazionali nella variante svizzera. Per fare ciò abbiamo bisogno di Graphical Processing Unit (GPU), computer specializzati in calcoli molto semplici, ma capaci di eseguirne miliardi. Purtroppo costano molto e si scaldano molto in fretta, per cui hanno bisogno di componenti per raffreddarli. Per fortuna qui a Lugano al Centro di calcolo (CSCS) abbiamo un sistema molto performante, uno dei migliori al mondo.

Questo significa che l’algoritmo che oggi domina le nostre vite digitali scomparirà?

Ogni motore di ricerca è fatto da due parti, quella che ricerca le informazioni e quella che presenta i risultati. Quest’ultima parte finora non era molto sviluppata. Tuttavia, le aziende si sono accorte che gli utenti si sono stancati di sfogliare pagine su pagine di risultati, anche perché molti ormai usano il cellulare, un mezzo su cui vedere tutti questi link non è così semplice – sono piccoli, se ne vedono pochi per volta… Inoltre adesso molte applicazioni si usano con la voce, magari in auto, senza quindi aver bisogno di uno schermo. C’è quindi bisogno di un’interfaccia “conversazionale”, e per questo i Large Language Models sono perfetti.

Non sono un po’ asettici?

Un po’ sì, ma quello che stiamo cercando di fare all’Usi è di personalizzarli in modo che quando dialogano con me lo faranno in modo diverso rispetto a quando lo fanno con lei, perché avranno imparato quali sono i miei interessi, i miei gusti, il mio modo di dialogare, le mie preferenze e così via. Il motore di ricerca non scompare, ma continuerà a cercare le informazioni che ritiene più giuste; il Large Language Model me le spacchetterà e me le presenterà nella maniera migliore per me, in una conversazione “umana” che io avrò con il motore di ricerca.

Un assistente personale o un bravo venditore?

Più il primo, direi. Sarà in grado di conoscermi, e più avrà informazioni su di me più i risultati che mi darà saranno quelli giusti per me. Siamo nell’area dell’Information retrieval, ossia l’insieme delle tecniche utilizzate per gestire la rappresentazione, la memorizzazione, l’organizzazione e l’accesso alle informazioni e che coinvolge varie discipline, tra cui la psicologia, la filosofia, la linguistica e la semeiotica. Qui all’Usi abbiamo un progetto in cui andiamo un po’ più avanti: l’intento è di riuscire non solo a creare conversazioni molto particolari con l’utente, ma che in queste conversazioni il sistema riesca a monitorare anche il mio stato d’animo per meglio comprendere la natura del mio bisogno.

Stiamo parlando di una macchina, quindi teoricamente asettica, mentre un essere umano è tutto tranne che asettico. Come si fa a colmare la distanza?

Grazie appunto ai Large Language Models. Da anni siamo in grado di intuire da come una persona parla quale sia il suo stato psicologico, se sta mostrando segni di depressione, di ansia, di felicità. Questo è quello che oggi fa uno psicologo. L’LLM impara a riconoscere sequenze di parole e ad associarle a un’emozione, a un sentimento o a uno stato psicologico. Partendo da un modello generale, insegnandogli la maniera di parlare di una specifica persona questo LLM, una volta fatto un buon training e modificati di conseguenza i modelli, è in grado di apprenderlo. Il sistema, osservando il modo di parlare dell’utente è quindi in grado di riconoscere anche il suo stato d’animo, e magari anche prevedere se sta cadendo in uno stato di depressione, di ansia o di stress.

Prossimi sviluppi?

Sto discutendo con un collaboratore del dipartimento di filosofia dell’università di Losanna per vedere se riusciamo a fare una cosa molto particolare. Come detto noi possiamo personalizzare i Large Language Models; di conseguenza ci è venuta l’idea di prendere tutti gli scritti di un grande autore del passato (Pascoli, Leopardi, Kafka…), non solo le sue opere ma anche i suoi scritti personali, e di costruire un LLM che scriva/parli come lui o perlomeno ne contenga un suo riflesso. Non tanto per sentirlo parlare, questo è impossibile (i Large Language Models non sono usati per fare la copia della mia voce, ma la copia di quello che dico), ma per vedere che personalità avranno questi LLMs e dunque intravedere alcuni aspetti della personalità dell’autore in questione.

Quindi fra qualche anno apriremo il nostro motore di ricerca e ci sarà una voce che, stile commesso di un negozio, ci dirà: “Buongiorno signore, desidera”? Arriveremo mai a un computer o a un sistema di linguaggio in cui c’è una reale interazione con le persone?

Siamo secondo me abbastanza vicini. Ci sono aspetti tecnici – in pochi decenni siamo passati dal computer al personal computer e oggi allo smartphone, che ci segue ovunque andiamo e sa quasi tutto quello che facciamo – e di personalizzazione della conversazione che faranno sì che a un certo punto nessuno potrà più scambiare il suo cellulare, perché le interazioni che avremmo da questo non saranno quelle che ci aspettiamo, perché appunto ormai troppo legate alla personalità del suo proprietario.

Non saranno ancora delle persone ma avranno una loro personalità.

Eh sì, si può quasi dire che la stanno sviluppando.

Una rubrica a cura di