L’uso di ChatGPT e altri modelli di linguaggio di grandi dimensioni è diventato una pratica comune nella vita quotidiana. Questi strumenti vengono impiegati per una vasta gamma di scopi, sia all’interno che all’esterno dell’ambito lavorativo. Ad esempio, possono essere utilizzati per scopi organizzativi, aiutando nella pianificazione delle attività, gestione del tempo e organizzazione di progetti.

È innegabile che l’utilizzo sensato di questi strumenti possa semplificare notevolmente la nostra vita, automatizzando in primis le attività più noiose. Inoltre, questi modelli si sono confermati come validi strumenti grazie alla loro capacità di fornire risposte sempre pronte.

Ad esempio, chiedendo a ChatGPT di descrivere il volto dell’uomo del Monopoly, il modello potrebbe rispondere prontamente che ha baffi bianchi, un cilindro nero e il famoso monocolo. Oppure, se gli si chiede quale stato ha il confine più lungo con l’Italia tra la Spagna e il Portogallo, potrebbe affermare, senza esitazione, che è la Spagna.

C’è un problema però: l’uomo del Monopoly non ha nessun monocolo e la Spagna non confina con l’Italia.

Cosa è successo?🤔

AI-llucinazioni 😵‍💫

I due casi sopra menzionati sono esempi di “allucinazioni” degli LLM, un fenomeno in cui le risposte generate risultano false o incoerenti, ma che a prima vista possono sembrare vere e sensate. Di conseguenza, risulta difficile distinguerle dalla realtà, proprio come le allucinazioni che tutti conosciamo.

Vediamo ora quali sono le principali cause di questo fenomeno.

 

  • Allucinazioni dai dati: Nel mondo del machine learning esiste un mantra: “garbage in, garbage out” (“spazzatura dentro, spazzatura fuori”). Questo significa che se i dati in ingresso sono “sporchi” e di scarsa qualità, indipendentemente dal modello utilizzato, i risultati non saranno affidabili. Una delle cause delle allucinazioni degli LLM è proprio la qualità dei dati usati per allenarli, che in alcuni casi potrebbe non essere eccelsa, contenendo informazioni false o in conflitto tra loro.
  • Errori di codifica: Per comprendere questo punto è necessario prima capire come funzionano gli LLM. Grosso modo, possiamo distinguere due fasi: una fase di codifica e una di decodifica. Nella fase di codifica, il modello prende l’input fornito dall’utente e lo rappresenta in uno spazio, trasformando le parole in numeri attraverso un processo chiamato word embedding. Questo spazio è strutturato in modo tale che parole simili tra loro siano posizionate vicine, mentre parole e concetti distanti siano collocati più lontani. Prendiamo come esempio l’immagine qui sotto:In questo esempio vediamo come le parole “cane” e “gatto” siano simili tra loro e quindi vicine nello spazio, e lo stesso vale per “tigre” e “lupo”. Tra i due gruppi c’è una certa distanza, ma possiamo comunque osservare che un gatto è più vicino all’essere una tigre che un lupo. Il problema può sorgere se il posizionamento delle parole avviene in modo errato: immaginiamo, ad esempio, se “cane” e “tigre” fossero invertiti. In questo caso, ChatGPT potrebbe rispondere che “i gatti e le tigri sono ottimi animali da compagnia”.
  • Errori di decodifica: Una volta che l’input è stato codificato, il modello tenta di rispondere basandosi su quale sia la parola successiva più probabile. Tuttavia, alcuni modelli utilizzano una tecnica chiamata “top-k sampling” che, semplificando, sceglie casualmente una delle parole tra quelle più probabili. Se da un lato questo sistema aiuta a rendere le risposte meno ripetitive e dà l’impressione di conversare con una persona, dall’altro potrebbe portare ad allucinazioni, scegliendo parole con una probabilità più bassa e che in realtà hanno poco a che fare con l’argomento.
  • Allucinazioni da “conoscenza”: In alcuni casi, un modello potrebbe preferire rispondere con informazioni presenti all’interno del dataset utilizzato per il suo addestramento, piuttosto che basarsi sull’input dell’utente. Un esempio potrebbe essere il seguente prompt: “Bob è blu. Bob è una rana. Di che colore è la rana?” In risposta, ChatGPT potrebbe dire che “Le rane sono solitamente verdi”, evidenziando come l’input dell’utente sia stato totalmente ignorato a favore di un fatto presente nel dataset di addestramento.

Questi sono solo alcuni dei motivi, ma molti altri sono stati individuati in recenti studi. Per saperne di più, l’Università di Hong Kong ha scritto un articolo molto completo sull’argomento, che è stato utilizzato come base anche per questo articolo.

Esiste una cura?💊

Arrivati a questo punto, una domanda sorge spontanea: È possibile mitigare questi fenomeni e ottenere risposte più affidabili? La comunità scientifica sta lavorando attivamente su questo tema e sono già state proposte svariate soluzioni a riguardo.

  • Uno dei punti cardine per allenare un LLM e renderlo affidabile è, come già detto, la qualità del dataset di allenamento. Tuttavia, data l’enorme mole di dati richiesta, una pulizia manuale risulta praticamente impossibile: GPT-3, ad esempio, è stato allenato su un dataset contenente circa 500 miliardi di parole, che richiederebbe mesi se non anni di lavoro per essere controllato. Per il LLM Llama-2, sviluppato da Meta, alcuni testi contenenti fatti veri sono stati duplicati, in modo da avere un peso maggiore nell’allenamento del modello. Per GPT-3, invece, è stato utilizzato un sistema di classificazione automatico per distinguere i documenti di bassa qualità.
  • Un altro modo per mitigare le allucinazioni è il fine tuning di un LLM: questa operazione consiste nel riaddestrare un modello già pronto su fonti specifiche, anche create appositamente. Questa operazione viene svolta su dataset molto più piccoli rispetto a quelli utilizzati per l’addestramento iniziale, e quindi sono molto più facili da controllare anche manualmente.
  • Altre soluzioni includono l’impiego dei RAG (Retrieval Augmented Generation), ovvero modelli con accesso a più fonti esterne, come ad esempio Gemini di Google, che è in grado di navigare nel web per raccogliere le informazioni necessarie. Un’altra strategia è l’utilizzo del feedback degli utenti per migliorare o correggere le risposte, come è avvenuto per GPT-4.

Non ci resta quindi che aspettare e osservare come queste tecnologie si evolveranno in futuro, utilizzandole sempre con pensiero critico e assicurandosi di verificare le fonti da cui provengono le informazioni fornite dagli LLM.

Vuoi scoprire di più sulle applicazioni dell’AI? 🤖

Durante la prima edizione di AImpact parleremo di AI e Digital Marketing, cercando di rispondere a una semplice domanda: quale ruolo gioca (e giocherà) l’AI nelle strategie digitali?

Fonte: ” Survey of Hallucination in Natural Language Generation“, Ziwei Ji et al., Hong Kong University of Science and Technology, 2022

Nome Cognome

Massimiliano Eramo

Performance Strategist & Chief Operation Officer