Tokens: a moeda dos LLMs
Aprenda o que são tokens e por que importam para custo e contexto
Objetivos de aprendizagem
- •Entender o que são tokens e como o texto é tokenizado
- •Aprender por que a contagem de tokens importa para custo e limites de contexto
- •Reconhecer como diferentes tipos de conteúdo tokenizam de forma diferente
O que são tokens?
Um token é um pedaço de texto que o modelo processa como uma unidade. Tokens podem ser:
- Palavras inteiras: "olá" → 1 token
- Pedaços de palavras: "infelicidade" → ["in", "felicidade"] → 2 tokens
- Pontuação: "!" → 1 token
- Números: "2024" pode ser 1–2 tokens dependendo do tokenizador
Como regra aproximada: 1 token ≈ 4 caracteres ou 100 tokens ≈ 75 palavras em português.
Por que tokens importam
Custo
O preço de API costuma ser por token. Tanto tokens de entrada (prompt) quanto de saída (completion) são contados. Um prompt verboso custa mais que um conciso.
Janela de contexto
Cada modelo tem um comprimento máximo de contexto (ex.: 8K, 32K, 128K tokens). Esse limite inclui sua entrada E a saída do modelo. Um modelo de 32K de contexto processa cerca de 24.000 palavras no total.
Desempenho
Contextos longos podem afetar a qualidade da resposta. Informações no início e no fim de prompts longos tendem a ter mais peso que as do meio.
Diferenças de tokenização
Modelos diferentes usam tokenizadores diferentes:
- GPT-4 usa o tokenizador cl100k_base
- Claude usa seu próprio tokenizador
- Modelos open-source costumam usar SentencePiece ou tokenizadores customizados
O mesmo texto pode ter contagens de token diferentes entre modelos. A palavra "indescritível" pode ser dividida em ["ind", "esc", "rit", "ível"] = 4 tokens em tokenizadores GPT. Código costuma ter densidade maior: "function(){}" pode ser 5+ tokens por causa dos caracteres especiais.