WorkflowEngenhariatesting-and-qa
LLM System Evaluation Loop
Construir um processo de avaliação para sistemas com LLM baseado em traces, categorias reais de falha, métricas por componente e avaliadores calibrados.
Aplicação
Quando
faz sentido.
Não usar
- Para teste unitário determinístico de código comum.
- Quando ainda não há trace ou dados representativos.
- Para criar "score geral de qualidade" sem categoria de falha definida.
Setup
Pré
requisitos.
- 01[ ] Traces do pipeline com input, etapas intermediárias e output.
- 02[ ] Critério de sucesso do domínio.
- 03[ ] Pessoa capaz de julgar exemplos iniciais.
- 04[ ] Acesso aos documentos/índice se houver RAG.
Constelação
Onde
ele vive.
Execução
Como usar
com IA.
- 01Copie o prompt abaixo (ou use o botão no topo).
- 02Abra o Claude ou Claude Code no diretório do projeto.
- 03Cole o prompt e siga a ordem das etapas. O agente conduz cada skill em sequência.
prompt.txt
> Execute o workflow 'LLM System Evaluation Loop' seguindo a ordem crítica das etapas. Para cada etapa, carregue a skill correspondente e siga suas instruções. Pergunte se faltar contexto.