SkillEngenhariaDiagnostica

Running LLM Error Analysis

Analisa traces de sistemas com LLM para descobrir categorias reais de falha antes de criar métricas.

Ações
PerfilDev
ProfundidadeAlta
Idiomapt-BR
Objetivo

Em uma frase.

Descobrir como um sistema com LLM falha na prática, usando traces reais ou sintéticos executados pelo pipeline completo. A saída deve orientar correções, métricas e avaliadores específicos.

Aplicação

Quando
faz sentido.

Usar
  • Antes de criar avaliadores automatizados.
  • Após queda de métrica, incidente ou reclamação de usuários.
  • Depois de mudar prompt, modelo, ferramenta, retriever ou arquitetura de agente.
  • Ao iniciar um projeto de evals sem taxonomia de falhas confiável.
Prompt

Instruções
para a IA.

Passo 1 - Selecionar amostra representativa

Comece com cerca de 100 traces quando possível. Use amostragem aleatória como baseline e estratifique por segmentos importantes. Se há volume alto, inclua outliers de latência, tamanho de resposta, número de tools e casos reclamados.

### Passo 2 - Ler traces sem categorias prévias

Para cada trace, marque `Pass` ou `Fail`. Em falhas, registre a primeira coisa que deu errado, não todos os sintomas em cascata.

Escreva observações concretas:

- "Ignorou restrição de orçamento na query."

- "Usou documento recuperado errado." - "Inventou dado não presente no contexto." - "Chamou ferramenta sem parâmetro obrigatório."

### Passo 3 - Agrupar falhas emergentes

Depois de 30 a 50 traces, agrupe notas similares em 5 a 10 categorias específicas e acionáveis. Separe categorias que parecem parecidas mas têm causas diferentes.

### Passo 4 - Rotular todos os traces

Reaplique as categorias refinadas a todos os traces. Cada trace deve ter pass/fail geral e labels binárias por categoria.

### Passo 5 - Priorizar correções e avaliadores

Calcule frequência e impacto. Corrija problemas óbvios antes de criar juiz: prompt ausente, tool inexistente, bug de parsing, schema errado ou retriever mal configurado.
Constelação

Onde
ela vive.