Frodex

Frodex

Beta
EnglishPortuguês (BR)
Fundamentos
1Introdução2Tokens3Controlando o modelo
Comunicando com LLMs
4Anatomia de um bom prompt5System prompts e personas6Few-shot learning
Saídas estruturadas
7Modo JSON e saída estruturada8Function calling
Técnicas avançadas
9Raciocínio em cadeia de pensamento10Gerenciando a janela de contexto11Embeddings e busca semântica
Sistemas em produção
12Retrieval-Augmented Generation (RAG)13Respostas em streaming14Avaliação e otimização de custo
Frodex

Frodex

Beta
EnglishPortuguês (BR)
Fundamentos
1Introdução2Tokens3Controlando o modelo
Comunicando com LLMs
4Anatomia de um bom prompt5System prompts e personas6Few-shot learning
Saídas estruturadas
7Modo JSON e saída estruturada8Function calling
Técnicas avançadas
9Raciocínio em cadeia de pensamento10Gerenciando a janela de contexto11Embeddings e busca semântica
Sistemas em produção
12Retrieval-Augmented Generation (RAG)13Respostas em streaming14Avaliação e otimização de custo
Fundamentos
15 minLição 3 de 14

Controlando o modelo: parâmetros de geração

Domine os parâmetros que controlam como os LLMs geram texto

Objetivos de aprendizagem

  • •Entender temperatura e seu efeito na aleatoriedade da saída
  • •Aprender sobre top-p, max_tokens e outros parâmetros de geração
  • •Saber quando usar cada parâmetro para tarefas diferentes

Temperatura (0,0 - 2,0)

A temperatura controla a aleatoriedade da seleção de tokens:

  • 0,0: Determinístico — sempre escolhe o token de maior probabilidade. Melhor para tarefas factuais.
  • 0,7: Equilibrado — bom padrão para a maioria das tarefas
  • 1,0+: Criativo — mais aleatório, saídas inesperadas. Bom para brainstorm.

Pense na temperatura como o "botão de criatividade".

Top-P (amostragem por núcleo)

Top-P (0,0 - 1,0) limita a seleção de tokens ao menor conjunto cuja probabilidade acumulada excede P:

  • 0,1: Muito focado — considera só os tokens mais prováveis
  • 0,9: Amplo — considera opções mais diversas
  • 1,0: Considera todos os tokens

Use temperatura OU top-p para controle, não os dois ao mesmo tempo.

Max tokens

Define o comprimento máximo da resposta gerada. Importante para:

  • Controle de custo: Limita os tokens de saída faturados
  • Formato da resposta: Garante respostas concisas
  • Gestão de contexto: Deixa espaço para trocas de follow-up

Outros parâmetros

Sequências de parada

Strings que terminam a geração quando encontradas. Úteis para saídas estruturadas.

Frequency penalty (0,0 - 2,0)

Reduz repetição penalizando tokens que já apareceram. Valores maiores = menos repetição.

Presence penalty (0,0 - 2,0)

Incentiva o modelo a introduzir novos tópicos. Valores maiores = conteúdo mais diverso.

Erros comuns

×Usar alta temperatura para tarefas que exigem precisão — leva a alucinações
×Definir max_tokens muito baixo — respostas são cortadas no meio da frase
×Usar temperatura e top_p juntos — competem; use um ou outro
×Não testar parâmetros — valores ótimos variam por caso de uso

Principais pontos

+Temperatura controla aleatoriedade: baixa para precisão, alta para criatividade
+Top-P é uma alternativa à temperatura para controlar diversidade
+Max tokens limita o comprimento da saída e controla custos
+Sempre teste combinações de parâmetros para o seu caso de uso

Playground

Experimente estes prompts

Prompt

Por que este experimento?

Experimente diferentes configurações de parâmetros em tarefas realistas para ver como afetam determinismo, criatividade e comprimento da resposta.

Resposta
Nenhuma resposta ainda
Escolha um experimento acima ou digite seu prompt e clique em Executar para ver a resposta do modelo aqui.

Em baixa temperatura, o modelo deve responder de forma consistente `200`. Isso espelha casos de uso em produção em que você quer respostas estáveis para perguntas factuais.