SkillEngenhariaCriação

Writing LLM Judge Rubric

Escreve rubrica binária para juiz LLM avaliar uma única falha subjetiva.

Ações
PerfilDev
ProfundidadeAlta
Idiomapt-BR
Objetivo

Em uma frase.

Criar uma rubrica de avaliação para um juiz LLM que classifica uma única falha como `Pass` ou `Fail`, com critério explícito, exemplos e saída estruturada.

Aplicação

Quando
faz sentido.

Usar
  • Depois de error analysis identificar categoria subjetiva recorrente.
  • Para avaliar fidelidade, relevância, completude, tom, instrução seguida ou adequação contextual.
  • Quando regex, schema, execução de código ou validação determinística não resolvem.
Prompt

Instruções
para a IA.

Passo 1 - Confirmar que juiz é necessário

Antes de escrever rubrica, descarte alternativas determinísticas:

- Regex ou palavra-chave.

- Validação de JSON/schema. - Checagem de citação. - Execução de query/código. - Regra de negócio objetiva.

Passo 2 - Definir critério único

O juiz deve avaliar uma coisa. Evite "a resposta é boa?". Prefira "a resposta é fiel ao contexto recuperado?" ou "a resposta omite restrição obrigatória do usuário?".

### Passo 3 - Escrever definições Pass/Fail

Defina:

- O que conta como Pass.

- O que conta como Fail. - Casos limítrofes. - Evidências que o juiz deve procurar.

Passo 4 - Selecionar poucos exemplos

Inclua exemplos claros e um borderline. Exemplos usados no prompt devem vir do split de treino, nunca do conjunto de validação ou teste.

### Passo 5 - Exigir saída estruturada

Peça crítica antes do veredito e formato parseável, por exemplo:

```json

{ "critique": "evidencia concreta contra a rubrica", "result": "Pass ou Fail" } ```
Constelação

Onde
ela vive.