Sistemas em produção

18 minLição 14 de 14

Avaliação e otimização de custo

Meça qualidade e otimize custos em produção

Objetivos de aprendizagem

•Aprender a avaliar a qualidade da saída do LLM
•Entender estratégias de otimização de custo
•Implementar monitoramento e observabilidade

Métodos de avaliação

Métricas automatizadas

Correspondência exata: Resposta igual à saída esperada
BLEU/ROUGE: Pontuações de similaridade de texto
Validadores customizados: Conformidade de schema, presença de palavras-chave

LLM como juiz

Use um LLM (diferente) para avaliar respostas:

Avalie esta resposta em precisão (1-5):
Pergunta: {pergunta}
Temas esperados: {temas}
Resposta: {resposta}

Avaliação humana

Testes A/B com usuários
Revisão por especialistas para aplicações de alto risco
Auditorias de qualidade periódicas

Otimização de custo

Escolha do modelo

Use modelos menores para tarefas simples
Mini e Nano (ex.: GPT-4.1 Mini/Nano) para tarefas leves: classificação, formatação, respostas curtas
Modelos de raciocínio/thinking (ex.: o1, GPT-5.4) para código, análise complexa e raciocínio profundo
Modelos pequenos fine-tunados podem superar modelos grandes gerais

Otimização de prompt

Prompts mais curtos = custo menor
Remova instruções redundantes
Comprima exemplos

Cache

Cache para consultas idênticas
Cache semântico para consultas similares
TTL baseado na necessidade de atualização do conteúdo

Monitoramento em produção

Acompanhe estas métricas:

Performance

Latência (p50, p95, p99)
Tempo até o primeiro token
Throughput de tokens

Qualidade

Taxa de erro
Sinais de feedback do usuário
Pontuações de qualidade automatizadas

Custo

Uso de tokens por requisição
Custo por usuário/funcionalidade
Tendências de gasto diário/semanal

Erros comuns

×Não medir desempenho baseline antes de otimizar

×Otimizar custo sem acompanhar o impacto na qualidade

×Usar modelos caros para tarefas simples

×Ignorar oportunidades de cache para consultas repetidas

Principais pontos

+Combine métricas automatizadas, LLM como juiz e avaliação humana para uma visão completa

+Combine a capacidade do modelo à complexidade da tarefa — não use modelo frontier ou de raciocínio (ex.: GPT-5.4) para classificação simples

+Implemente cache, otimização de prompt e batch para reduzir custos

+Monitore latência, taxa de erro, uso de tokens e pontuações de qualidade em produção