BundleEngenharia

LLM Evals Core

Bundle para avaliar sistemas com LLM, agentes e RAG com base em traces reais, categorias de falha acionáveis, métricas por componente e juízes calibrados.

1 workflow·7 skills

Ações

Baixar .zip

AudiênciaDev, Líder, Híbrido

NívelSenior

CenárioProduto com LLM, RAG em produção, Agentes com ferramentas, Pós-incidente

Objetivo

Em uma frase.

Este bundle organiza a criação de evals úteis para sistemas com LLM. O ponto de partida não é uma métrica genérica, mas a leitura de traces e a descoberta das falhas que realmente prejudicam o produto.

Audiência

Para
quem é.

Times criando ou mantendo produtos com LLM.
Engenheiros que precisam comparar prompts, modelos, retrievers ou arquiteturas de agente.
Líderes técnicos que precisam explicar qualidade de sistemas generativos com métricas defensáveis.
Times que sofreram incidente e precisam transformar aprendizado em guardrails.

Sequência

Fluxo
sugerido.

Os workflows do bundle se compõem nesta ordem. Cada um pode também ser usado individualmente.

01
LLM System Evaluation Loop
Workflow para avaliar agentes, pipelines RAG e aplicações com LLM. Começa por error analysis, separa retrieval e geração quando houver RAG, cria rubricas de juiz apenas para falhas subjetivas e valida avaliadores contra rótulos humanos.

Componentes

Skills
destacadas.

Execução

Como usar
com IA.

01Baixe o bundle ou copie o prompt abaixo.
02Abra o Claude ou Claude Code no diretório do projeto.
03Cole o prompt — o agente executa os workflows na ordem sugerida.
04Use as skills associadas para refinar cada output.

bundle-prompt.txt

> Execute o bundle 'LLM Evals Core'. Carregue todos os workflows incluídos na ordem sugerida e aplique cada skill correspondente. Pergunte se faltar contexto em qualquer etapa.

Baixar bundle

LLM Evals Core

Em uma frase.

Paraquem é.

Fluxosugerido.

LLM System Evaluation Loop

Skillsdestacadas.

Como usarcom IA.

Para
quem é.

Fluxo
sugerido.

Skills
destacadas.

Como usar
com IA.