SkillEngenhariaCriação

Writing LLM Judge Rubric

Escreve rubrica binária para juiz LLM avaliar uma única falha subjetiva.

Em:LLM System Evaluation Loop

Ações

PerfilDev

ProfundidadeAlta

Idiomapt-BR

Objetivo

Em uma frase.

Criar uma rubrica de avaliação para um juiz LLM que classifica uma única falha como `Pass` ou `Fail`, com critério explícito, exemplos e saída estruturada.

Aplicação

Quando
faz sentido.

Usar

Depois de error analysis identificar categoria subjetiva recorrente.
Para avaliar fidelidade, relevância, completude, tom, instrução seguida ou adequação contextual.
Quando regex, schema, execução de código ou validação determinística não resolvem.

Prompt

Instruções
para a IA.

Passo 1 - Confirmar que juiz é necessário

Antes de escrever rubrica, descarte alternativas determinísticas:

- Regex ou palavra-chave.

- Validação de JSON/schema. - Checagem de citação. - Execução de query/código. - Regra de negócio objetiva.

Passo 2 - Definir critério único

O juiz deve avaliar uma coisa. Evite "a resposta é boa?". Prefira "a resposta é fiel ao contexto recuperado?" ou "a resposta omite restrição obrigatória do usuário?".

### Passo 3 - Escrever definições Pass/Fail

Defina:

- O que conta como Pass.

- O que conta como Fail. - Casos limítrofes. - Evidências que o juiz deve procurar.

Passo 4 - Selecionar poucos exemplos

Inclua exemplos claros e um borderline. Exemplos usados no prompt devem vir do split de treino, nunca do conjunto de validação ou teste.

### Passo 5 - Exigir saída estruturada

Peça crítica antes do veredito e formato parseável, por exemplo:

```json

{ "critique": "evidencia concreta contra a rubrica", "result": "Pass ou Fail" } ```

Constelação

Onde
ela vive.

Workflows que usam

LLM System Evaluation LoopEngenharia

Bundles que incluem

LLM Evals CoreEngenharia

Writing LLM Judge Rubric

Em uma frase.

Quandofaz sentido.

Instruçõespara a IA.

Passo 1 - Confirmar que juiz é necessárioAntes de escrever rubrica, descarte alternativas determinísticas:- Regex ou palavra-chave.

Passo 2 - Definir critério únicoO juiz deve avaliar uma coisa. Evite "a resposta é boa?". Prefira "a resposta é fiel ao contexto recuperado?" ou "a resposta omite restrição obrigatória do usuário?".### Passo 3 - Escrever definições Pass/FailDefina:- O que conta como Pass.