BundleEngenharia
LLM Evals Core
Bundle para avaliar sistemas com LLM, agentes e RAG com base em traces reais, categorias de falha acionáveis, métricas por componente e juízes calibrados.
1 workflow·7 skills
Ações
Baixar .zipAudiênciaDev, Líder, Híbrido
NívelSenior
CenárioProduto com LLM, RAG em produção, Agentes com ferramentas, Pós-incidente
Objetivo
Em uma frase.
Este bundle organiza a criação de evals úteis para sistemas com LLM. O ponto de partida não é uma métrica genérica, mas a leitura de traces e a descoberta das falhas que realmente prejudicam o produto.
Audiência
Para
quem é.
- Times criando ou mantendo produtos com LLM.
- Engenheiros que precisam comparar prompts, modelos, retrievers ou arquiteturas de agente.
- Líderes técnicos que precisam explicar qualidade de sistemas generativos com métricas defensáveis.
- Times que sofreram incidente e precisam transformar aprendizado em guardrails.
Sequência
Fluxo
sugerido.
Os workflows do bundle se compõem nesta ordem. Cada um pode também ser usado individualmente.
Execução
Como usar
com IA.
- 01Baixe o bundle ou copie o prompt abaixo.
- 02Abra o Claude ou Claude Code no diretório do projeto.
- 03Cole o prompt — o agente executa os workflows na ordem sugerida.
- 04Use as skills associadas para refinar cada output.
bundle-prompt.txt
> Execute o bundle 'LLM Evals Core'. Carregue todos os workflows incluídos na ordem sugerida e aplique cada skill correspondente. Pergunte se faltar contexto em qualquer etapa.