SkillEngenhariaQA

Validating LLM Evaluator

Calibra um juiz LLM contra rótulos humanos antes de usar seus resultados.

Em:LLM System Evaluation Loop

Ações

PerfilDev

ProfundidadeAlta

Idiomapt-BR

Objetivo

Em uma frase.

Verificar se um juiz LLM reproduz julgamento humano de forma confiável antes de virar métrica de produto, CI ou relatório executivo.

Aplicação

Quando
faz sentido.

Usar

Após escrever rubrica de juiz LLM.
Antes de usar scores automáticos para comparar prompts/modelos.
Quando um avaliador parece enviesado ou inconsistente.
Após mudança significativa na rubrica, modelo juiz ou formato de entrada.

Prompt

Instruções
para a IA.

Passo 1 - Criar splits

Divida exemplos rotulados em:

- Treino: poucos exemplos usados no prompt.

- Dev: usado para iterar rubrica. - Teste: segurado para medição final uma única vez.

Mantenha classes Pass/Fail minimamente balanceadas para medir erros nos dois lados.

Passo 2 - Rodar no dev

Execute o juiz em todos os exemplos de dev. Compare rótulos do juiz contra rótulos humanos.

### Passo 3 - Medir TPR e TNR

Use:

- TPR: quando humano diz Pass, quantas vezes juiz diz Pass.

- TNR: quando humano diz Fail, quantas vezes juiz diz Fail.

Raw accuracy pode mascarar viés em bases desbalanceadas.

Passo 4 - Inspecionar desacordos

Para cada divergência:

- Juiz permissivo demais?

- Juiz rígido demais? - Rubrica ambígua? - Exemplo humano inconsistente? - Falha deveria ser dividida em duas categorias?

Itere no dev, não no teste.

### Passo 5 - Medir no teste

Quando dev estabilizar, rode uma única vez no test set e registre TPR/TNR finais. Se teste decepciona, volte a coletar/rotular mais dados; não ajuste olhando o teste como se fosse dev.

Constelação

Onde
ela vive.

Workflows que usam

LLM System Evaluation LoopEngenharia

Bundles que incluem

LLM Evals CoreEngenharia

Validating LLM Evaluator

Em uma frase.

Quandofaz sentido.

Instruçõespara a IA.

Passo 1 - Criar splitsDivida exemplos rotulados em:- Treino: poucos exemplos usados no prompt.

Passo 2 - Rodar no devExecute o juiz em todos os exemplos de dev. Compare rótulos do juiz contra rótulos humanos.### Passo 3 - Medir TPR e TNRUse:- TPR: quando humano diz Pass, quantas vezes juiz diz Pass.