Frodex

Frodex

Beta
EnglishPortuguês (BR)
Fundamentos
1Introdução2Tokens3Controlando o modelo
Comunicando com LLMs
4Anatomia de um bom prompt5System prompts e personas6Few-shot learning
Saídas estruturadas
7Modo JSON e saída estruturada8Function calling
Técnicas avançadas
9Raciocínio em cadeia de pensamento10Gerenciando a janela de contexto11Embeddings e busca semântica
Sistemas em produção
12Retrieval-Augmented Generation (RAG)13Respostas em streaming14Avaliação e otimização de custo
Frodex

Frodex

Beta
EnglishPortuguês (BR)
Fundamentos
1Introdução2Tokens3Controlando o modelo
Comunicando com LLMs
4Anatomia de um bom prompt5System prompts e personas6Few-shot learning
Saídas estruturadas
7Modo JSON e saída estruturada8Function calling
Técnicas avançadas
9Raciocínio em cadeia de pensamento10Gerenciando a janela de contexto11Embeddings e busca semântica
Sistemas em produção
12Retrieval-Augmented Generation (RAG)13Respostas em streaming14Avaliação e otimização de custo
Fundamentos
12 minLição 2 de 14

Tokens: a moeda dos LLMs

Aprenda o que são tokens e por que importam para custo e contexto

Objetivos de aprendizagem

  • •Entender o que são tokens e como o texto é tokenizado
  • •Aprender por que a contagem de tokens importa para custo e limites de contexto
  • •Reconhecer como diferentes tipos de conteúdo tokenizam de forma diferente

O que são tokens?

Um token é um pedaço de texto que o modelo processa como uma unidade. Tokens podem ser:

  • Palavras inteiras: "olá" → 1 token
  • Pedaços de palavras: "infelicidade" → ["in", "felicidade"] → 2 tokens
  • Pontuação: "!" → 1 token
  • Números: "2024" pode ser 1–2 tokens dependendo do tokenizador

Como regra aproximada: 1 token ≈ 4 caracteres ou 100 tokens ≈ 75 palavras em português.

Por que tokens importam

Custo

O preço de API costuma ser por token. Tanto tokens de entrada (prompt) quanto de saída (completion) são contados. Um prompt verboso custa mais que um conciso.

Janela de contexto

Cada modelo tem um comprimento máximo de contexto (ex.: 8K, 32K, 128K tokens). Esse limite inclui sua entrada E a saída do modelo. Um modelo de 32K de contexto processa cerca de 24.000 palavras no total.

Desempenho

Contextos longos podem afetar a qualidade da resposta. Informações no início e no fim de prompts longos tendem a ter mais peso que as do meio.

Diferenças de tokenização

Modelos diferentes usam tokenizadores diferentes:

  • GPT-4 usa o tokenizador cl100k_base
  • Claude usa seu próprio tokenizador
  • Modelos open-source costumam usar SentencePiece ou tokenizadores customizados

O mesmo texto pode ter contagens de token diferentes entre modelos. A palavra "indescritível" pode ser dividida em ["ind", "esc", "rit", "ível"] = 4 tokens em tokenizadores GPT. Código costuma ter densidade maior: "function(){}" pode ser 5+ tokens por causa dos caracteres especiais.

Erros comuns

×Ignorar custos de token em produção — prompts verbosos em escala ficam caros rápido
×Não considerar tokens de saída — um pedido de 'explicação detalhada' gera muitos tokens de saída
×Assumir que contagem de palavras é igual a contagem de tokens — caracteres especiais e código tokenizam diferente
×Encher as janelas de contexto por completo — isso pode degradar a qualidade da resposta

Principais pontos

+Tokens são a unidade de medida para entrada e saída de LLMs, aproximadamente 4 caracteres cada
+Tokens de entrada e saída contam para custo e limites de contexto
+Modelos diferentes tokenizam o mesmo texto de forma diferente
+Prompting eficiente significa obter bons resultados com menos tokens

Playground

Experimente estes prompts

Prompt

Por que este experimento?

Compare prompts curtos e prolixos e veja como eles mudam o uso de tokens e a saída.

Resposta
Nenhuma resposta ainda
Escolha um experimento acima ou digite seu prompt e clique em Executar para ver a resposta do modelo aqui.

Instrução direta que usa poucos tokens de entrada e incentiva uma saída pequena e barata.