SkillEngenhariaDiagnostica
Running LLM Error Analysis
Analisa traces de sistemas com LLM para descobrir categorias reais de falha antes de criar métricas.
Ações
PerfilDev
ProfundidadeAlta
Idiomapt-BR
Objetivo
Em uma frase.
Descobrir como um sistema com LLM falha na prática, usando traces reais ou sintéticos executados pelo pipeline completo. A saída deve orientar correções, métricas e avaliadores específicos.
Aplicação
Quando
faz sentido.
Usar
- Antes de criar avaliadores automatizados.
- Após queda de métrica, incidente ou reclamação de usuários.
- Depois de mudar prompt, modelo, ferramenta, retriever ou arquitetura de agente.
- Ao iniciar um projeto de evals sem taxonomia de falhas confiável.
Prompt
Instruções
para a IA.
Passo 1 - Selecionar amostra representativa
Comece com cerca de 100 traces quando possível. Use amostragem aleatória como baseline e estratifique por segmentos importantes. Se há volume alto, inclua outliers de latência, tamanho de resposta, número de tools e casos reclamados.
### Passo 2 - Ler traces sem categorias prévias
Para cada trace, marque `Pass` ou `Fail`. Em falhas, registre a primeira coisa que deu errado, não todos os sintomas em cascata.
Escreva observações concretas:
- "Ignorou restrição de orçamento na query."
- "Usou documento recuperado errado."
- "Inventou dado não presente no contexto."
- "Chamou ferramenta sem parâmetro obrigatório."### Passo 3 - Agrupar falhas emergentes
Depois de 30 a 50 traces, agrupe notas similares em 5 a 10 categorias específicas e acionáveis. Separe categorias que parecem parecidas mas têm causas diferentes.
### Passo 4 - Rotular todos os traces
Reaplique as categorias refinadas a todos os traces. Cada trace deve ter pass/fail geral e labels binárias por categoria.
### Passo 5 - Priorizar correções e avaliadores
Calcule frequência e impacto. Corrija problemas óbvios antes de criar juiz: prompt ausente, tool inexistente, bug de parsing, schema errado ou retriever mal configurado.
Constelação
Onde
ela vive.
Workflows que usam
Bundles que incluem