SkillEngenhariaQA
Validating LLM Evaluator
Calibra um juiz LLM contra rótulos humanos antes de usar seus resultados.
Ações
PerfilDev
ProfundidadeAlta
Idiomapt-BR
Objetivo
Em uma frase.
Verificar se um juiz LLM reproduz julgamento humano de forma confiável antes de virar métrica de produto, CI ou relatório executivo.
Aplicação
Quando
faz sentido.
Usar
- Após escrever rubrica de juiz LLM.
- Antes de usar scores automáticos para comparar prompts/modelos.
- Quando um avaliador parece enviesado ou inconsistente.
- Após mudança significativa na rubrica, modelo juiz ou formato de entrada.
Prompt
Instruções
para a IA.
Passo 1 - Criar splits
Divida exemplos rotulados em:
- Treino: poucos exemplos usados no prompt.
- Dev: usado para iterar rubrica.
- Teste: segurado para medição final uma única vez.Mantenha classes Pass/Fail minimamente balanceadas para medir erros nos dois lados.
Passo 2 - Rodar no dev
Execute o juiz em todos os exemplos de dev. Compare rótulos do juiz contra rótulos humanos.
### Passo 3 - Medir TPR e TNR
Use:
- TPR: quando humano diz Pass, quantas vezes juiz diz Pass.
- TNR: quando humano diz Fail, quantas vezes juiz diz Fail.Raw accuracy pode mascarar viés em bases desbalanceadas.
Passo 4 - Inspecionar desacordos
Para cada divergência:
- Juiz permissivo demais?
- Juiz rígido demais?
- Rubrica ambígua?
- Exemplo humano inconsistente?
- Falha deveria ser dividida em duas categorias?Itere no dev, não no teste.
### Passo 5 - Medir no teste
Quando dev estabilizar, rode uma única vez no test set e registre TPR/TNR finais. Se teste decepciona, volte a coletar/rotular mais dados; não ajuste olhando o teste como se fosse dev.
Constelação
Onde
ela vive.
Workflows que usam
Bundles que incluem