SkillEngenhariaQA

Validating LLM Evaluator

Calibra um juiz LLM contra rótulos humanos antes de usar seus resultados.

Ações
PerfilDev
ProfundidadeAlta
Idiomapt-BR
Objetivo

Em uma frase.

Verificar se um juiz LLM reproduz julgamento humano de forma confiável antes de virar métrica de produto, CI ou relatório executivo.

Aplicação

Quando
faz sentido.

Usar
  • Após escrever rubrica de juiz LLM.
  • Antes de usar scores automáticos para comparar prompts/modelos.
  • Quando um avaliador parece enviesado ou inconsistente.
  • Após mudança significativa na rubrica, modelo juiz ou formato de entrada.
Prompt

Instruções
para a IA.

Passo 1 - Criar splits

Divida exemplos rotulados em:

- Treino: poucos exemplos usados no prompt.

- Dev: usado para iterar rubrica. - Teste: segurado para medição final uma única vez.

Mantenha classes Pass/Fail minimamente balanceadas para medir erros nos dois lados.

Passo 2 - Rodar no dev

Execute o juiz em todos os exemplos de dev. Compare rótulos do juiz contra rótulos humanos.

### Passo 3 - Medir TPR e TNR

Use:

- TPR: quando humano diz Pass, quantas vezes juiz diz Pass.

- TNR: quando humano diz Fail, quantas vezes juiz diz Fail.

Raw accuracy pode mascarar viés em bases desbalanceadas.

Passo 4 - Inspecionar desacordos

Para cada divergência:

- Juiz permissivo demais?

- Juiz rígido demais? - Rubrica ambígua? - Exemplo humano inconsistente? - Falha deveria ser dividida em duas categorias?

Itere no dev, não no teste.

### Passo 5 - Medir no teste

Quando dev estabilizar, rode uma única vez no test set e registre TPR/TNR finais. Se teste decepciona, volte a coletar/rotular mais dados; não ajuste olhando o teste como se fosse dev.
Constelação

Onde
ela vive.