• Definizione di allucinazione:
  • PerchΓ© accadono:

Introduzione

Si parla di β€œallucinazioni” nei modelli di linguaggio (come GPT) quando l’IA genera risposte o informazioni che sembrano plausibili ma non sono vere o corrette. Ad esempio, se chiedi una ricetta inventata, l’IA puΓ² produrre una risposta come se fosse reale, anche se non ha basi nei dati su cui Γ¨ stata addestrata. Queste accadono in quanto i Language Model sono addestrati a completare il testo basandosi su probabilitΓ  statistiche, senza un legame diretto con veritΓ  oggettive o morali. In altre parole, il loro scopo principale Γ¨ proseguire il testo in modo coerente, non fornire risposte vere.

Cos’è un Language Model?

  • È un sistema addestrato su grandi quantitΓ  di testo per prevedere la sequenza piΓΉ probabile di parole. Funziona come una sorta di simulazione di tessuto nervoso, continuando il testo token per token (parola per parola o frammento per frammento).
  • Non interagisce davvero con te: Quando parli con un modello come ChatGPT, in realtΓ  non β€œconversa”, ma crea una simulazione probabilistica di una conversazione. Ad esempio, se gli dai un testo con un bot che risponde e poi scrivi β€œUtente dice: …”, il modello proseguirΓ  anche la parte dell’utente. Capire questo concetto Γ¨ fondamentale per capire cosa Γ¨ veramente un Language Model. Ad esempio se chiedi una ricetta inventata (es. della β€œdammi la ricetta della carbonara della signora Pina”), il modello cerca di proseguire il testo come se quella ricetta esistesse.

Gli LLM possano generare informazioni plausibili ma errate, il cosiddetto β€œnonsense plausibile”. Queste non sono bug, ma una caratteristica intrinseca del modo in cui funzionano gli LLM.

Le allucinazioni come elemento naturale del modello

  • Le allucinazioni non sono un β€œbug” ma una caratteristica naturale del modello. Il sistema non Γ¨ progettato per β€œdire la verità” ma per proseguire il testo in modo statisticamente plausibile.
  • Pensare a GPT un modello di linguaggio come una sorta di β€œcompressione dell’Internet” (un enorme file zip): contiene informazioni statistiche su un’enorme quantitΓ  di testo, ma non garantisce precisione o veritΓ .
  • Le "allucinazioni" sono una conseguenza naturale del modo in cui funzionano i modelli di linguaggio, sono connaturate ad essi. Anzi, sono il motivo per cui sono cosΓ¬ potenti. Esse permettono al sistema di essere creativo, ad esempio scrivere un sonetto originale o produrre contenuti in uno stile specifico: senza le allucinazioni sarebbe impossibile fare ciΓ².
  • Limiti e contesto: Le allucinazioni diventano un problema solo quando si cerca di ottenere risposte affidabili o accurate in contesti critici.

Tipologie

Le allucinazioni possono essere classificate in base alla loro granularitΓ :

  1. Contraddizione nella frase: Una frase contraddice un’altra. Es.: β€œIl cielo Γ¨ blu oggi.” β†’ β€œIl cielo Γ¨ verde oggi.”
  2. Contraddizione del prompt: L’output non rispetta la richiesta. Es.: Chiedi una recensione positiva di un ristorante e il modello risponde che il cibo era pessimo.
  3. Errori fattuali: Dichiarazioni palesemente false, come β€œBarack Obama Γ¨ stato il primo presidente degli Stati Uniti.”
  4. Informazioni non pertinenti o prive di senso: Es.: β€œLa capitale della Francia Γ¨ Parigi. Parigi Γ¨ anche il nome di un cantante famoso.”

Come si affrontano

Esistono vari approcci per ridurre o gestire le allucinazioni: a monte con il fine tuning, durante il prompt con il RAG o a valle con i guardrails o post-processing

1. Fine-tuning e Annotazione

  • Il modello viene addestrato ulteriormente su set di dati annotati manualmente con risposte corrette o eticamente appropriate invece che essere addestrato solo su tutto internet senza filtri.
  • Esempio: I GPT 3 iniziali potevano rispondere a domande su temi eticamente discutibili senza filtri. Oggi, grazie all’addestramento con testi scritti da annotatori umani, evitano queste risposte.

2. Retrieval-Augmented Generation (RAG) (o Grounding)

  • Integrare informazioni reali nel processo di generazione.
  • Ad esempio, prima di rispondere a una domanda, il sistema esegue una ricerca in archivi o database specifici per ottenere il contesto. Questo contesto viene poi incluso nel prompt per aiutare il modello a rispondere basandosi su informazioni reali.
  • Fornendo quindi sia la domanda che la risposta nel prompt il Language Model non deve inventarseli ma deve solo recuperare informazioni che ha giΓ .

3. Guardrails (Barriere di sicurezza)

  • Si costruiscono barriere intorno al modello, imponendo limiti su certi tipi di risposte.
  • Esempio: Prompt che includono regole del tipo β€œRispondi solo sulla base di questi contenuti”.

4. Controllo a valle (Post-processing)

  • Una volta generata la risposta, viene controllata per verificarne la coerenza con i dati di partenza.
  • Esempio: Si verifica se la risposta Γ¨ deducibile da un documento specifico o se tocca argomenti sensibili, per bloccarla o correggerla.

Video