WorkflowEngenhariatesting-and-qa

LLM System Evaluation Loop

Construir um processo de avaliação para sistemas com LLM baseado em traces, categorias reais de falha, métricas por componente e avaliadores calibrados.

Ações

Baixar pacote

AudiênciaHíbrido

NívelSenior

Estágioevaluation

Duração1-5d

Aplicação

Quando
faz sentido.

Não usar

Para teste unitário determinístico de código comum.
Quando ainda não há trace ou dados representativos.
Para criar "score geral de qualidade" sem categoria de falha definida.

Setup

Pré
requisitos.

01[ ] Traces do pipeline com input, etapas intermediárias e output.
02[ ] Critério de sucesso do domínio.
03[ ] Pessoa capaz de julgar exemplos iniciais.
04[ ] Acesso aos documentos/índice se houver RAG.

Componentes

Skills
incluídas.

Constelação

Onde
ele vive.

LLM Evals CoreEngenharia

Execução

Como usar
com IA.

01Copie o prompt abaixo (ou use o botão no topo).
02Abra o Claude ou Claude Code no diretório do projeto.
03Cole o prompt e siga a ordem das etapas. O agente conduz cada skill em sequência.

prompt.txt

> Execute o workflow 'LLM System Evaluation Loop' seguindo a ordem crítica das etapas. Para cada etapa, carregue a skill correspondente e siga suas instruções. Pergunte se faltar contexto.

Baixar pacote

LLM System Evaluation Loop

Quandofaz sentido.

Prérequisitos.

Skillsincluídas.

Ondeele vive.

Como usarcom IA.

Quando
faz sentido.

Pré
requisitos.

Skills
incluídas.

Onde
ele vive.

Como usar
com IA.