Gerenciando a janela de contexto

Trabalhe de forma eficaz dentro dos limites de tokens

Objetivos de aprendizagem

A janela de contexto é a quantidade total de texto (em tokens) que o modelo pode considerar de uma vez. Isso inclui:

GPT-4o: 128K tokens
GPT-4.1: até 1M tokens
GPT-5.4: 1,05M tokens (1M)
Claude 3.5 Sonnet: 200K tokens
Claude Opus/Sonnet 4.5–4.6: 200K padrão; até 1M em beta (4.6)
Llama 3: 8K oficial; variantes (ex.: 3.1) até 128K
Llama 4 (Maverick/Scout): até 1M–10M dependendo da variante (efetivo bem menor em contextos longos)

Pesquisas mostram que modelos prestam menos atenção a informações no meio de contextos longos:

Para informações críticas, coloque-as no início ou no fim do contexto.

Resuma periodicamente mensagens antigas:

[Resumo da conversa anterior: Usuário perguntou sobre X, discutimos Y, concordamos em Z]

Mantenha apenas as N mensagens mais recentes.

Inclua só mensagens relevantes para a consulta atual.

Armazene detalhes externamente, inclua resumos no contexto.

×Incluir todo o histórico — leva a estouro de contexto e custo maior

×Colocar informação crítica no meio — pode ser ignorada

×Não ter estratégia de contexto — conversas degradam conforme crescem

×Ignorar limites de contexto — truncamento pode gerar respostas incoerentes

+Janelas de contexto têm limites rígidos — planeje para eles

+Coloque informações críticas no início e no fim

+Use resumo e inclusão seletiva para conversas longas

+Monitore o uso de tokens e implemente estratégias de estouro

Noções básicas da janela de contexto

A janela de contexto é a quantidade total de texto (em tokens) que o modelo pode considerar de uma vez. Isso inclui:

GPT-4o: 128K tokens
GPT-4.1: até 1M tokens
GPT-5.4: 1,05M tokens (1M)
Claude 3.5 Sonnet: 200K tokens
Claude Opus/Sonnet 4.5–4.6: 200K padrão; até 1M em beta (4.6)
Llama 3: 8K oficial; variantes (ex.: 3.1) até 128K
Llama 4 (Maverick/Scout): até 1M–10M dependendo da variante (efetivo bem menor em contextos longos)

Estratégias de gestão de contexto

Resuma periodicamente mensagens antigas:

[Resumo da conversa anterior: Usuário perguntou sobre X, discutimos Y, concordamos em Z]

Mantenha apenas as N mensagens mais recentes.

Inclua só mensagens relevantes para a consulta atual.

Armazene detalhes externamente, inclua resumos no contexto.