Fundamentos
15 minLição 3 de 14
Controlando o modelo: parâmetros de geração
Domine os parâmetros que controlam como os LLMs geram texto
Objetivos de aprendizagem
- •Entender temperatura e seu efeito na aleatoriedade da saída
- •Aprender sobre top-p, max_tokens e outros parâmetros de geração
- •Saber quando usar cada parâmetro para tarefas diferentes
Temperatura (0,0 - 2,0)
A temperatura controla a aleatoriedade da seleção de tokens:
- 0,0: Determinístico — sempre escolhe o token de maior probabilidade. Melhor para tarefas factuais.
- 0,7: Equilibrado — bom padrão para a maioria das tarefas
- 1,0+: Criativo — mais aleatório, saídas inesperadas. Bom para brainstorm.
Pense na temperatura como o "botão de criatividade".
Top-P (amostragem por núcleo)
Top-P (0,0 - 1,0) limita a seleção de tokens ao menor conjunto cuja probabilidade acumulada excede P:
- 0,1: Muito focado — considera só os tokens mais prováveis
- 0,9: Amplo — considera opções mais diversas
- 1,0: Considera todos os tokens
Use temperatura OU top-p para controle, não os dois ao mesmo tempo.
Max tokens
Define o comprimento máximo da resposta gerada. Importante para:
- Controle de custo: Limita os tokens de saída faturados
- Formato da resposta: Garante respostas concisas
- Gestão de contexto: Deixa espaço para trocas de follow-up
Outros parâmetros
Sequências de parada
Strings que terminam a geração quando encontradas. Úteis para saídas estruturadas.
Frequency penalty (0,0 - 2,0)
Reduz repetição penalizando tokens que já apareceram. Valores maiores = menos repetição.
Presence penalty (0,0 - 2,0)
Incentiva o modelo a introduzir novos tópicos. Valores maiores = conteúdo mais diverso.
Erros comuns
×Usar alta temperatura para tarefas que exigem precisão — leva a alucinações
×Definir max_tokens muito baixo — respostas são cortadas no meio da frase
×Usar temperatura e top_p juntos — competem; use um ou outro
×Não testar parâmetros — valores ótimos variam por caso de uso
Principais pontos
+Temperatura controla aleatoriedade: baixa para precisão, alta para criatividade
+Top-P é uma alternativa à temperatura para controlar diversidade
+Max tokens limita o comprimento da saída e controla custos
+Sempre teste combinações de parâmetros para o seu caso de uso