I token sono le unitΓ di base di testo o codice che un LLM AI utilizza per elaborare e generare il linguaggio. I token possono essere caratteri, parole, sottoparole o altri segmenti di testo o codice, a seconda del metodo o dello schema di tokenizzazione scelto. Ai token vengono assegnati valori numerici o identificatori e sono disposti in sequenze o vettori e vengono inseriti o emessi dal modello. I token sono gli elementi costitutivi del linguaggio per il modello.
Come funziona la tokenizzazione?
La tokenizzazione Γ¨ il processo di suddivisione dei testi di input e output in unitΓ piΓΉ piccole che possono essere elaborate dai modelli LLM AI. I token possono essere parole, caratteri, sottoparole o simboli, a seconda del tipo e delle dimensioni del modello. La tokenizzazione puΓ² aiutare il modello a gestire linguaggi, vocabolari e formati diversi e a ridurre i costi computazionali e di memoria e puΓ² anche influenzare la qualitΓ e la diversitΓ dei testi generati, influenzando il significato e il contesto dei token. La tokenizzazione puΓ² essere effettuata utilizzando diversi metodi, come basati su regole, statistici o neurali, a seconda della complessitΓ e della variabilitΓ dei testi.
Codifica Byte-Pair (BPE)
OpenAI e Azure OpenAI usano un metodo di tokenizzazione delle parole secondarie denominato βcodifica Byte-Pair (BPE)β per i modelli basati su GPT. BPE Γ¨ un metodo che unisce le coppie di caratteri o byte piΓΉ frequenti in un unico token, fino a raggiungere un certo numero di token o una dimensione del vocabolario. BPE puΓ² aiutare il modello a gestire parole rare o invisibili e a creare rappresentazioni piΓΉ compatte e coerenti dei testi. BPE puΓ² anche consentire al modello di generare nuove parole o token, combinando quelli esistenti. Il modo in cui la tokenizzazione Γ¨ diversa a seconda del diverso modello Ada, Babbage, Curie e Davinci si basa principalmente sul numero di token o sulla dimensione del vocabolario che ciascun modello utilizza. Ada ha la dimensione del vocabolario piΓΉ piccola, con 50.000 token, e Davinci ha la dimensione del vocabolario piΓΉ grande, con 60.000 token. Babbage e Curie hanno la stessa dimensione del vocabolario, con 57.000 gettoni. Maggiore Γ¨ la dimensione del vocabolario, piΓΉ diversi ed espressivi sono i testi che il modello puΓ² generare. Tuttavia, maggiore Γ¨ la dimensione del vocabolario, maggiore Γ¨ la memoria e le risorse computazionali richieste dal modello. Pertanto, la scelta della dimensione del vocabolario dipende dal compromesso tra la qualitΓ e lβefficienza del modello.
Che cosa ha a che fare la tokenizzazione con il costo di esecuzione di un modello?
La tokenizzazione influisce sulla quantitΓ di dati e sul numero di calcoli che il modello deve elaborare. Maggiore Γ¨ il numero di token con cui il modello ha a che fare, maggiore Γ¨ la memoria e le risorse computazionali che il modello consuma. Pertanto, il costo dellβesecuzione di un modello OpenAI o Azure OpenAI dipende dal metodo di tokenizzazione e dalla dimensione del vocabolario usato dal modello, nonchΓ© dalla lunghezza e dalla complessitΓ dei testi di input e output. In base al numero di token utilizzati per interagire con un modello e alle diverse tariffe per i diversi modelli, i costi possono variare notevolmente. Ad esempio, a partire da febbraio 2023, la tariffa per lβutilizzo di Davinci Γ¨ di 0,0008 per 1.000 token. La tariffa varia anche a seconda del tipo di utilizzo, come parco giochi, ricerca o motore. Pertanto, la tokenizzazione Γ¨ un fattore importante che influenza il costo e le prestazioni dellβesecuzione di un modello OpenAI o Azure OpenAI.