- Definizione di allucinazione:
- PerchΓ© accadono:
Introduzione
Si parla di βallucinazioniβ nei modelli di linguaggio (come GPT) quando lβIA genera risposte o informazioni che sembrano plausibili ma non sono vere o corrette. Ad esempio, se chiedi una ricetta inventata, lβIA puΓ² produrre una risposta come se fosse reale, anche se non ha basi nei dati su cui Γ¨ stata addestrata. Queste accadono in quanto i Language Model sono addestrati a completare il testo basandosi su probabilitΓ statistiche, senza un legame diretto con veritΓ oggettive o morali. In altre parole, il loro scopo principale Γ¨ proseguire il testo in modo coerente, non fornire risposte vere.
CosβΓ¨ un Language Model?
- Γ un sistema addestrato su grandi quantitΓ di testo per prevedere la sequenza piΓΉ probabile di parole. Funziona come una sorta di simulazione di tessuto nervoso, continuando il testo token per token (parola per parola o frammento per frammento).
- Non interagisce davvero con te: Quando parli con un modello come ChatGPT, in realtΓ non βconversaβ, ma crea una simulazione probabilistica di una conversazione. Ad esempio, se gli dai un testo con un bot che risponde e poi scrivi βUtente dice: β¦β, il modello proseguirΓ anche la parte dellβutente. Capire questo concetto Γ¨ fondamentale per capire cosa Γ¨ veramente un Language Model. Ad esempio se chiedi una ricetta inventata (es. della βdammi la ricetta della carbonara della signora Pinaβ), il modello cerca di proseguire il testo come se quella ricetta esistesse.
Gli LLM possano generare informazioni plausibili ma errate, il cosiddetto βnonsense plausibileβ. Queste non sono bug, ma una caratteristica intrinseca del modo in cui funzionano gli LLM.
Le allucinazioni come elemento naturale del modello
- Le allucinazioni non sono un βbugβ ma una caratteristica naturale del modello. Il sistema non Γ¨ progettato per βdire la veritΓ β ma per proseguire il testo in modo statisticamente plausibile.
- Pensare a GPT un modello di linguaggio come una sorta di βcompressione dellβInternetβ (un enorme file zip): contiene informazioni statistiche su unβenorme quantitΓ di testo, ma non garantisce precisione o veritΓ .
- Le "allucinazioni" sono una conseguenza naturale del modo in cui funzionano i modelli di linguaggio, sono connaturate ad essi. Anzi, sono il motivo per cui sono così potenti. Esse permettono al sistema di essere creativo, ad esempio scrivere un sonetto originale o produrre contenuti in uno stile specifico: senza le allucinazioni sarebbe impossibile fare ciò.
- Limiti e contesto: Le allucinazioni diventano un problema solo quando si cerca di ottenere risposte affidabili o accurate in contesti critici.
Tipologie
Le allucinazioni possono essere classificate in base alla loro granularitΓ :
- Contraddizione nella frase: Una frase contraddice unβaltra. Es.: βIl cielo Γ¨ blu oggi.β β βIl cielo Γ¨ verde oggi.β
- Contraddizione del prompt: Lβoutput non rispetta la richiesta. Es.: Chiedi una recensione positiva di un ristorante e il modello risponde che il cibo era pessimo.
- Errori fattuali: Dichiarazioni palesemente false, come βBarack Obama Γ¨ stato il primo presidente degli Stati Uniti.β
- Informazioni non pertinenti o prive di senso: Es.: βLa capitale della Francia Γ¨ Parigi. Parigi Γ¨ anche il nome di un cantante famoso.β
Come si affrontano
Esistono vari approcci per ridurre o gestire le allucinazioni: a monte con il fine tuning, durante il prompt con il RAG o a valle con i guardrails o post-processing
1. Fine-tuning e Annotazione
- Il modello viene addestrato ulteriormente su set di dati annotati manualmente con risposte corrette o eticamente appropriate invece che essere addestrato solo su tutto internet senza filtri.
- Esempio: I GPT 3 iniziali potevano rispondere a domande su temi eticamente discutibili senza filtri. Oggi, grazie allβaddestramento con testi scritti da annotatori umani, evitano queste risposte.
2. Retrieval-Augmented Generation (RAG) (o Grounding)
- Integrare informazioni reali nel processo di generazione.
- Ad esempio, prima di rispondere a una domanda, il sistema esegue una ricerca in archivi o database specifici per ottenere il contesto. Questo contesto viene poi incluso nel prompt per aiutare il modello a rispondere basandosi su informazioni reali.
- Fornendo quindi sia la domanda che la risposta nel prompt il Language Model non deve inventarseli ma deve solo recuperare informazioni che ha giΓ .
3. Guardrails (Barriere di sicurezza)
- Si costruiscono barriere intorno al modello, imponendo limiti su certi tipi di risposte.
- Esempio: Prompt che includono regole del tipo βRispondi solo sulla base di questi contenutiβ.
4. Controllo a valle (Post-processing)
- Una volta generata la risposta, viene controllata per verificarne la coerenza con i dati di partenza.
- Esempio: Si verifica se la risposta Γ¨ deducibile da un documento specifico o se tocca argomenti sensibili, per bloccarla o correggerla.