SkillEngenhariaDiagnostica

Running LLM Error Analysis

Analisa traces de sistemas com LLM para descobrir categorias reais de falha antes de criar métricas.

Em:LLM System Evaluation Loop

Ações

PerfilDev

ProfundidadeAlta

Idiomapt-BR

Objetivo

Em uma frase.

Descobrir como um sistema com LLM falha na prática, usando traces reais ou sintéticos executados pelo pipeline completo. A saída deve orientar correções, métricas e avaliadores específicos.

Aplicação

Quando
faz sentido.

Usar

Antes de criar avaliadores automatizados.
Após queda de métrica, incidente ou reclamação de usuários.
Depois de mudar prompt, modelo, ferramenta, retriever ou arquitetura de agente.
Ao iniciar um projeto de evals sem taxonomia de falhas confiável.

Prompt

Instruções
para a IA.

Passo 1 - Selecionar amostra representativa

Comece com cerca de 100 traces quando possível. Use amostragem aleatória como baseline e estratifique por segmentos importantes. Se há volume alto, inclua outliers de latência, tamanho de resposta, número de tools e casos reclamados.

### Passo 2 - Ler traces sem categorias prévias

Para cada trace, marque `Pass` ou `Fail`. Em falhas, registre a primeira coisa que deu errado, não todos os sintomas em cascata.

Escreva observações concretas:

- "Ignorou restrição de orçamento na query."

- "Usou documento recuperado errado." - "Inventou dado não presente no contexto." - "Chamou ferramenta sem parâmetro obrigatório."

### Passo 3 - Agrupar falhas emergentes

Depois de 30 a 50 traces, agrupe notas similares em 5 a 10 categorias específicas e acionáveis. Separe categorias que parecem parecidas mas têm causas diferentes.

### Passo 4 - Rotular todos os traces

Reaplique as categorias refinadas a todos os traces. Cada trace deve ter pass/fail geral e labels binárias por categoria.

### Passo 5 - Priorizar correções e avaliadores

Calcule frequência e impacto. Corrija problemas óbvios antes de criar juiz: prompt ausente, tool inexistente, bug de parsing, schema errado ou retriever mal configurado.

Constelação

Onde
ela vive.

Workflows que usam

LLM System Evaluation LoopEngenharia

Bundles que incluem

LLM Evals CoreEngenharia

Running LLM Error Analysis

Em uma frase.

Quandofaz sentido.

Instruçõespara a IA.

Ondeela vive.

Quando
faz sentido.

Instruções
para a IA.

Onde
ela vive.