I token IA rap­pre­sen­ta­no la più piccola unità lin­gui­sti­ca che serve ai modelli di IA per elaborare e in­ter­pre­ta­re il testo. Con la to­ke­niz­za­zio­ne IA, il lin­guag­gio viene scomposto in questi blocchi, che co­sti­tui­sco­no la base per l’analisi e la ge­ne­ra­zio­ne di testi. Gli strumenti come OpenAI Tokenizer con­sen­to­no di de­ter­mi­na­re i token di un testo in modo semplice e rapido.

De­fi­ni­zio­ne: cosa sono i token IA?

I token IA (token di in­tel­li­gen­za ar­ti­fi­cia­le) co­sti­tui­sco­no la più piccola unità di dati dei modelli di IA come ChatGPT, LLama2 e Copilot. Sono l’elemento più im­por­tan­te per l’ela­bo­ra­zio­ne, l’in­ter­pre­ta­zio­ne e la ge­ne­ra­zio­ne di testo, perché solo scom­po­nen­do un testo in token l’in­tel­li­gen­za ar­ti­fi­cia­le può com­pren­de­re il lin­guag­gio e fornire risposte adatte alle richieste degli utenti. I token IA possono quindi rap­pre­sen­ta­re sia singole parole o parti di parole, sia segni di in­ter­pun­zio­ne ed emoji.

Il numero di token IA di cui si compone un testo dipende da diversi fattori. Oltre alla lunghezza del testo, sono rilevanti ad esempio anche la lingua e il modello di IA uti­liz­za­ti. Se utilizzi un accesso alle API come l’API di ChatGPT , il numero di token determina anche i costi da sostenere. Nella maggior parte dei casi, le ap­pli­ca­zio­ni di IA calcolano i token IA consumati sin­go­lar­men­te.

I software IA di IONOS
Scopri la potenza del­l'in­tel­li­gen­za ar­ti­fi­cia­le
  • Siti web in tempo record
  • Soluzioni IA per il tuo business
  • Risparmio di tempo e risultati ec­cel­len­ti

Come funziona la to­ke­niz­za­zio­ne IA?

Il processo con cui un modello di IA converte il testo in token è chiamato “to­ke­niz­za­zio­ne IA”. È ne­ces­sa­rio perché i modelli lin­gui­sti­ci di grandi di­men­sio­ni hanno bisogno di lin­guag­gio naturale in una forma ana­liz­za­bi­le dalle macchine. La to­ke­niz­za­zio­ne co­sti­tui­sce pertanto la base per l’in­ter­pre­ta­zio­ne del testo, il ri­co­no­sci­men­to di modelli e la ge­ne­ra­zio­ne di risposte. Senza questo processo di con­ver­sio­ne l’in­tel­li­gen­za ar­ti­fi­cia­le non sarebbe in grado di rilevare i contesti semantici e re­la­zio­na­li. La con­ver­sio­ne del testo in token è co­sti­tui­ta da più passaggi e si svolge come segue:

  1. Nor­ma­liz­za­zio­ne: in una prima fase, il modello di IA converte il testo in una forma stan­dar­diz­za­ta, riducendo la com­ples­si­tà e la varianza. Con la nor­ma­liz­za­zio­ne, tutto il testo viene tra­sfor­ma­to in lettere minuscole. Inoltre, il modello rimuove i caratteri speciali e talvolta riduce le parole alle forme base.
  2. Scom­po­si­zio­ne del testo in token: nel passo suc­ces­si­vo, l’IA scompone il testo in token, ossia in unità lin­gui­sti­che più piccole. L’entità della scom­po­si­zio­ne dipende dalla com­ples­si­tà e dall’ad­de­stra­men­to del modello. La frase “L’IA ri­vo­lu­zio­na il marketing” presenta un numero dif­fe­ren­te di token a seconda delle versioni GPT. Ad esempio, in GPT-4 risulta co­sti­tui­ta da quattro token e in GPT-4o da cinque.
  3. As­se­gna­zio­ne di valori numerici: suc­ces­si­va­men­te il modello di IA assegna a ciascun token IA un valore numerico, de­no­mi­na­to ID del token. Gli ID sono in un certo senso il vo­ca­bo­la­rio dell’in­tel­li­gen­za ar­ti­fi­cia­le, che contiene tutti i token noti al modello.
  4. Ela­bo­ra­zio­ne del token IA: il modello lin­gui­sti­co analizza la relazione tra i token per rilevare modelli e fornire pre­vi­sio­ni o risposte, che vengono generate in base alla pro­ba­bi­li­tà. Il modello di IA osserva le in­for­ma­zio­ni sul contesto e determina i token IA suc­ces­si­vi sempre in base a quelli pre­ce­den­ti.
AI Model Hub
La tua piat­ta­for­ma IA mul­ti­mo­da­le e sicura
  • Con­for­mi­tà al GDPR e hosting sicuro in Europa
  • Potenti modelli basati sul­l'in­tel­li­gen­za ar­ti­fi­cia­le
  • Assenza di vendor lock-in grazie all'open source

Come si calcolano i token di un testo?

Possiamo com­pren­de­re in che modo i token sono calcolati dall’IA mediante i co­sid­det­ti tokenizer, che scom­pon­go­no i testi nelle unità di ela­bo­ra­zio­ne più piccole. Lavorano con algoritmi specifici che si basano sui dati di ad­de­stra­men­to e sull’ar­chi­tet­tu­ra del modello di IA. Oltre a indicare il numero di token, questi strumenti possono anche fornire in­for­ma­zio­ni det­ta­glia­te su ogni singolo token, ad esempio il relativo ID numerico. In questo modo non solo è possibile calcolare meglio i costi, ma si ottimizza anche l’ef­fi­cien­za dei testi nella co­mu­ni­ca­zio­ne con i modelli di IA.

Un esempio di tokenizer ad accesso libero è OpenAI Tokenizer, pro­get­ta­to per gli attuali modelli di ChatGPT. Dopo aver copiato o digitato il testo de­si­de­ra­to nel campo di im­mis­sio­ne, l’ap­pli­ca­zio­ne ti presenta i singoli token IA evi­den­zian­do le unità con colori.

N.B.

La lunghezza massima del testo dipende sempre dal limite di token del relativo modello. Ad esempio, GPT-4 può elaborare fino a 32.768 token per richiesta.

Token IA e to­ke­niz­za­zio­ne: esempio pratico

Di seguito un breve testo di esempio per com­pren­de­re meglio la to­ke­niz­za­zio­ne IA.

I token IA sono es­sen­zia­li per i modelli lin­gui­sti­ci moderni come GPT-4. Perché? Questi token scom­pon­go­no i testi in unità più piccole per per­met­te­re all’IA di ana­liz­zar­li e com­pren­der­li. Senza la to­ke­niz­za­zio­ne i modelli di IA non po­treb­be­ro elaborare il lin­guag­gio naturale in modo ef­fi­cien­te.

Il modello GPT-4o suddivide questo testo, composto da 295 caratteri, in 78 token, rap­pre­sen­tan­ti nella maniera seguente:

Immagine: OpenAI: esempio di testo con tokenizer
Scom­po­si­zio­ne dei token IA con una sequenza di testo di esempio; fonte: https://platform.openai.com/tokenizer
Vai al menu prin­ci­pa­le