Tokens: a moeda dos LLMs

Aprenda o que são tokens e por que importam para custo e contexto

Objetivos de aprendizagem

•Entender o que são tokens e como o texto é tokenizado
•Aprender por que a contagem de tokens importa para custo e limites de contexto
•Reconhecer como diferentes tipos de conteúdo tokenizam de forma diferente

O que são tokens?

Um token é um pedaço de texto que o modelo processa como uma unidade. Tokens podem ser:

Palavras inteiras: "olá" → 1 token
Pedaços de palavras: "infelicidade" → ["in", "felicidade"] → 2 tokens
Pontuação: "!" → 1 token
Números: "2024" pode ser 1–2 tokens dependendo do tokenizador

Como regra aproximada: 1 token ≈ 4 caracteres ou 100 tokens ≈ 75 palavras em português.

Por que tokens importam

Custo

O preço de API costuma ser por token. Tanto tokens de entrada (prompt) quanto de saída (completion) são contados. Um prompt verboso custa mais que um conciso.

Janela de contexto

Cada modelo tem um comprimento máximo de contexto (ex.: 8K, 32K, 128K tokens). Esse limite inclui sua entrada E a saída do modelo. Um modelo de 32K de contexto processa cerca de 24.000 palavras no total.

Desempenho

Contextos longos podem afetar a qualidade da resposta. Informações no início e no fim de prompts longos tendem a ter mais peso que as do meio.

Diferenças de tokenização

Modelos diferentes usam tokenizadores diferentes:

GPT-4 usa o tokenizador cl100k_base
Claude usa seu próprio tokenizador
Modelos open-source costumam usar SentencePiece ou tokenizadores customizados

O mesmo texto pode ter contagens de token diferentes entre modelos. A palavra "indescritível" pode ser dividida em ["ind", "esc", "rit", "ível"] = 4 tokens em tokenizadores GPT. Código costuma ter densidade maior: "function(){}" pode ser 5+ tokens por causa dos caracteres especiais.

Erros comuns

×Ignorar custos de token em produção — prompts verbosos em escala ficam caros rápido

×Não considerar tokens de saída — um pedido de 'explicação detalhada' gera muitos tokens de saída

×Assumir que contagem de palavras é igual a contagem de tokens — caracteres especiais e código tokenizam diferente

×Encher as janelas de contexto por completo — isso pode degradar a qualidade da resposta

Principais pontos

+Tokens são a unidade de medida para entrada e saída de LLMs, aproximadamente 4 caracteres cada

+Tokens de entrada e saída contam para custo e limites de contexto

+Modelos diferentes tokenizam o mesmo texto de forma diferente

+Prompting eficiente significa obter bons resultados com menos tokens