Sistemas em produção
18 minLição 14 de 14
Avaliação e otimização de custo
Meça qualidade e otimize custos em produção
Objetivos de aprendizagem
- •Aprender a avaliar a qualidade da saída do LLM
- •Entender estratégias de otimização de custo
- •Implementar monitoramento e observabilidade
Métodos de avaliação
Métricas automatizadas
- Correspondência exata: Resposta igual à saída esperada
- BLEU/ROUGE: Pontuações de similaridade de texto
- Validadores customizados: Conformidade de schema, presença de palavras-chave
LLM como juiz
Use um LLM (diferente) para avaliar respostas:
Avalie esta resposta em precisão (1-5):
Pergunta: {pergunta}
Temas esperados: {temas}
Resposta: {resposta}Avaliação humana
- Testes A/B com usuários
- Revisão por especialistas para aplicações de alto risco
- Auditorias de qualidade periódicas
Otimização de custo
Escolha do modelo
- Use modelos menores para tarefas simples
- GPT-3.5 para classificação, GPT-4 para raciocínio complexo
- Modelos pequenos fine-tunados podem superar modelos grandes gerais
Otimização de prompt
- Prompts mais curtos = custo menor
- Remova instruções redundantes
- Comprima exemplos
Cache
- Cache para consultas idênticas
- Cache semântico para consultas similares
- TTL baseado na necessidade de atualização do conteúdo
Monitoramento em produção
Acompanhe estas métricas:
Performance
- Latência (p50, p95, p99)
- Tempo até o primeiro token
- Throughput de tokens
Qualidade
- Taxa de erro
- Sinais de feedback do usuário
- Pontuações de qualidade automatizadas
Custo
- Uso de tokens por requisição
- Custo por usuário/funcionalidade
- Tendências de gasto diário/semanal
Erros comuns
×Não medir desempenho baseline antes de otimizar
×Otimizar custo sem acompanhar o impacto na qualidade
×Usar modelos caros para tarefas simples
×Ignorar oportunidades de cache para consultas repetidas
Principais pontos
+Combine métricas automatizadas, LLM como juiz e avaliação humana para uma visão completa
+Combine a capacidade do modelo à complexidade da tarefa — não use GPT-4 para classificação simples
+Implemente cache, otimização de prompt e batch para reduzir custos
+Monitore latência, taxa de erro, uso de tokens e pontuações de qualidade em produção