BundleEngenharia

LLM Evals Core

Bundle para avaliar sistemas com LLM, agentes e RAG com base em traces reais, categorias de falha acionáveis, métricas por componente e juízes calibrados.

1 workflow·7 skills
Ações
Baixar .zip
AudiênciaDev, Líder, Híbrido
NívelSenior
CenárioProduto com LLM, RAG em produção, Agentes com ferramentas, Pós-incidente
Objetivo

Em uma frase.

Este bundle organiza a criação de evals úteis para sistemas com LLM. O ponto de partida não é uma métrica genérica, mas a leitura de traces e a descoberta das falhas que realmente prejudicam o produto.

Audiência

Para
quem é.

  • Times criando ou mantendo produtos com LLM.
  • Engenheiros que precisam comparar prompts, modelos, retrievers ou arquiteturas de agente.
  • Líderes técnicos que precisam explicar qualidade de sistemas generativos com métricas defensáveis.
  • Times que sofreram incidente e precisam transformar aprendizado em guardrails.
Execução

Como usar
com IA.

  1. 01Baixe o bundle ou copie o prompt abaixo.
  2. 02Abra o Claude ou Claude Code no diretório do projeto.
  3. 03Cole o prompt — o agente executa os workflows na ordem sugerida.
  4. 04Use as skills associadas para refinar cada output.
bundle-prompt.txt
> Execute o bundle 'LLM Evals Core'. Carregue todos os workflows incluídos na ordem sugerida e aplique cada skill correspondente. Pergunte se faltar contexto em qualquer etapa.