Frodex

Frodex

Beta
EnglishPortuguês (BR)
Fundamentos
1Introdução2Tokens3Controlando o modelo
Comunicando com LLMs
4Anatomia de um bom prompt5System prompts e personas6Few-shot learning
Saídas estruturadas
7Modo JSON e saída estruturada8Function calling
Técnicas avançadas
9Raciocínio em cadeia de pensamento10Gerenciando a janela de contexto11Embeddings e busca semântica
Sistemas em produção
12Retrieval-Augmented Generation (RAG)13Respostas em streaming14Avaliação e otimização de custo
Frodex

Frodex

Beta
EnglishPortuguês (BR)
Fundamentos
1Introdução2Tokens3Controlando o modelo
Comunicando com LLMs
4Anatomia de um bom prompt5System prompts e personas6Few-shot learning
Saídas estruturadas
7Modo JSON e saída estruturada8Function calling
Técnicas avançadas
9Raciocínio em cadeia de pensamento10Gerenciando a janela de contexto11Embeddings e busca semântica
Sistemas em produção
12Retrieval-Augmented Generation (RAG)13Respostas em streaming14Avaliação e otimização de custo
Técnicas avançadas
15 minLição 10 de 14

Gerenciando a janela de contexto

Trabalhe de forma eficaz dentro dos limites de tokens

Objetivos de aprendizagem

  • •Entender as limitações da janela de contexto
  • •Aprender estratégias para conversas longas
  • •Implementar gestão de contexto eficaz

Noções básicas da janela de contexto

A janela de contexto é a quantidade total de texto (em tokens) que o modelo pode considerar de uma vez. Isso inclui:

  • System prompt
  • Histórico da conversa
  • Mensagem atual do usuário
  • Resposta do modelo
  • GPT-3.5: 4K–16K tokens
  • GPT-4: 8K–128K tokens
  • Claude: 100K–200K tokens
  • Llama: varia por modelo

O problema do meio

Pesquisas mostram que modelos prestam menos atenção a informações no meio de contextos longos:

  • Início: Alta atenção (efeito de primazia)
  • Meio: Menor atenção (perdido no meio)
  • Fim: Alta atenção (efeito de recência)

Para informações críticas, coloque-as no início ou no fim do contexto.

Estratégias de gestão de contexto

Resumo

Resuma periodicamente mensagens antigas:

[Resumo da conversa anterior: Usuário perguntou sobre X, discutimos Y, concordamos em Z]

Janela deslizante

Mantenha apenas as N mensagens mais recentes.

Inclusão seletiva

Inclua só mensagens relevantes para a consulta atual.

Memória hierárquica

Armazene detalhes externamente, inclua resumos no contexto.

Erros comuns

×Incluir todo o histórico — leva a estouro de contexto e custo maior
×Colocar informação crítica no meio — pode ser ignorada
×Não ter estratégia de contexto — conversas degradam conforme crescem
×Ignorar limites de contexto — truncamento pode gerar respostas incoerentes

Principais pontos

+Janelas de contexto têm limites rígidos — planeje para eles
+Coloque informações críticas no início e no fim
+Use resumo e inclusão seletiva para conversas longas
+Monitore o uso de tokens e implemente estratégias de estouro

Playground

Experimente estes prompts

Prompt

Por que este experimento?

Pratique técnicas para gerenciar conversas longas.

Resposta
Nenhuma resposta ainda
Escolha um experimento acima ou digite seu prompt e clique em Executar para ver a resposta do modelo aqui.

Resumir preserva o essencial e reduz a contagem de tokens.