Un model si riferisce a un'istanza o versione specifica di un LLM AI, come GPT-3 o Codex, che è stata addestrata e messa a punto su un ampio corpus di testo o codice (nel caso del model Codex) e che è possibile accedervi e utilizzarli tramite un'API o una piattaforma.
Un GPT model è un tipo di rete neurale che utilizza una transformer architecture per apprendere da grandi quantità di dati di testo. Il model ha due componenti principali: un encoder e un decoder.
- L’encoder elabora il testo di input e lo converte in una sequenza di vettori, chiamati Embeddings, che rappresentano il significato e il contesto di ogni parola.
- Il decoder genera il testo di output prevedendo la parola successiva nella sequenza, in base agli embeddings e alle parole precedenti.
Il model utilizza una tecnica chiamata attention per concentrarsi sulle parti più rilevanti dei testi di input e output e per catturare le dipendenze e le relazioni a lungo raggio tra le parole. Il model viene addestrato utilizzando un ampio corpus di testi sia come input che come output e riducendo al minimo la differenza tra le parole previste e quelle effettive. Il model può quindi essere messo a punto o adattato a compiti o domini specifici, utilizzando set di dati più piccoli e più specializzati.
I modelli LLM AI vengono generalmente confrontati in base al numero di parametri, dove più grande è solitamente migliore. Il numero di parametri è una misura della dimensione e della complessità del model. Più parametri ha un model, più dati può elaborare, apprendere e generare. Tuttavia, avere più parametri significa anche avere più risorse computazionali e di memoria e più possibilità di overfitting o underfitting dei dati. I parametri vengono appresi o aggiornati durante il processo di addestramento, utilizzando un algoritmo di ottimizzazione che tenta di ridurre al minimo l’errore o la perdita tra gli output previsti e quelli effettivi. Regolando i parametri, il model può migliorare le sue prestazioni e la sua accuratezza su un determinato compito o dominio.
GPT Model OpenAI/Azure OpenAI
Sono attualmente disponibili quattro modelli GPT (Generative Pre-trained Transformer) da OpenAI e Azure OpenAI. Sono composti da quattro varianti: Ada, Babbage, Curie e Davinci. Differiscono nel numero di parametri, nella quantità di dati su cui sono stati addestrati e nei tipi di attività che possono eseguire.
Ada
Ada
è il model più piccolo e semplice, con 350 milioni di parametri e 40 GB di dati testuali. È in grado di gestire le attività di comprensione e generazione del linguaggio naturale di base, come la classificazione, l’analisi dei sentimenti, il riepilogo e la conversazione semplice.
Babbage
Babbage
è un model più grande, con 3 miliardi di parametri e 300 GB di dati di testo. Può gestire compiti di linguaggio naturale più complessi, come il ragionamento, la logica, l’aritmetica e l’analogia delle parole.
Curie
Curie
è un model molto grande, con 13 miliardi di parametri e 800 GB di dati di testo. Può gestire attività avanzate di linguaggio naturale, come sintesi vocale, sintesi vocale, traduzione, parafrasi e risposta a domande.
Davinci
Davinci
è il model più grande e potente, con 175 miliardi di parametri e 45 TB di dati di testo. Può gestire quasi tutte le attività in linguaggio naturale, nonché alcune attività multimodali, come sottotitoli di immagini, trasferimento di stili e ragionamento visivo. Può anche generare testi coerenti e creativi su qualsiasi argomento, con un alto livello di fluidità, coerenza e diversità.