WorkflowEngenhariatesting-and-qa

LLM System Evaluation Loop

Construir um processo de avaliação para sistemas com LLM baseado em traces, categorias reais de falha, métricas por componente e avaliadores calibrados.

Ações
Baixar pacote
AudiênciaHíbrido
NívelSenior
Estágioevaluation
Duração1-5d
Aplicação

Quando
faz sentido.

Não usar
  • Para teste unitário determinístico de código comum.
  • Quando ainda não há trace ou dados representativos.
  • Para criar "score geral de qualidade" sem categoria de falha definida.
Setup

Pré
requisitos.

  • 01[ ] Traces do pipeline com input, etapas intermediárias e output.
  • 02[ ] Critério de sucesso do domínio.
  • 03[ ] Pessoa capaz de julgar exemplos iniciais.
  • 04[ ] Acesso aos documentos/índice se houver RAG.
Constelação

Onde
ele vive.

Execução

Como usar
com IA.

  1. 01Copie o prompt abaixo (ou use o botão no topo).
  2. 02Abra o Claude ou Claude Code no diretório do projeto.
  3. 03Cole o prompt e siga a ordem das etapas. O agente conduz cada skill em sequência.
prompt.txt
> Execute o workflow 'LLM System Evaluation Loop' seguindo a ordem crítica das etapas. Para cada etapa, carregue a skill correspondente e siga suas instruções. Pergunte se faltar contexto.