Controlando o modelo: parâmetros de geração

Domine os parâmetros que controlam como os LLMs geram texto

Objetivos de aprendizagem

A temperatura controla a aleatoriedade da seleção de tokens:

0,0: Determinístico — sempre escolhe o token de maior probabilidade. Melhor para tarefas factuais.
0,7: Equilibrado — bom padrão para a maioria das tarefas
1,0+: Criativo — mais aleatório, saídas inesperadas. Bom para brainstorm.

Pense na temperatura como o "botão de criatividade".

Top-P (0,0 - 1,0) limita a seleção de tokens ao menor conjunto cuja probabilidade acumulada excede P:

Use temperatura OU top-p para controle, não os dois ao mesmo tempo.

Define o comprimento máximo da resposta gerada. Importante para:

Strings que terminam a geração quando encontradas. Úteis para saídas estruturadas.

Reduz repetição penalizando tokens que já apareceram. Valores maiores = menos repetição.

Incentiva o modelo a introduzir novos tópicos. Valores maiores = conteúdo mais diverso.

×Usar alta temperatura para tarefas que exigem precisão — leva a alucinações

×Definir max_tokens muito baixo — respostas são cortadas no meio da frase

×Usar temperatura e top_p juntos — competem; use um ou outro

×Não testar parâmetros — valores ótimos variam por caso de uso

+Temperatura controla aleatoriedade: baixa para precisão, alta para criatividade

+Top-P é uma alternativa à temperatura para controlar diversidade

+Max tokens limita o comprimento da saída e controla custos

+Sempre teste combinações de parâmetros para o seu caso de uso

Temperatura (0,0 - 2,0)