SkillEngenhariaQA

Evaluating RAG Pipeline

Avalia retrieval e geração em pipelines RAG separadamente para localizar o gargalo real.

Ações
PerfilDev
ProfundidadeAlta
Idiomapt-BR
Objetivo

Em uma frase.

Medir retrieval e geração como componentes distintos. Um RAG só pode responder com fidelidade se recuperou contexto suficiente; por isso retrieval deve ser diagnosticado antes de ajustar o gerador.

Aplicação

Quando
faz sentido.

Usar
  • Quando respostas RAG ignoram informação que deveria estar na base.
  • Quando respostas incluem fatos ausentes do contexto recuperado.
  • Quando mudanças de chunking, embeddings ou reranking precisam ser comparadas.
  • Depois de error analysis indicar falhas de recuperação ou grounding.
Prompt

Instruções
para a IA.

Passo 1 - Separar falha de retrieval e geração

Para cada trace, pergunte:

- O documento/chunk necessário foi recuperado?

- Ele apareceu alto o suficiente no ranking? - A resposta final foi fiel ao contexto recuperado? - A resposta respondeu a query original?

Passo 2 - Construir dataset de retrieval

Monte pares `query -> chunks relevantes`. Prefira curadoria manual para casos críticos. Use geração sintética apenas como escala, filtrando perguntas irreais ou ambíguas.

### Passo 3 - Medir retrieval

Escolha métrica pelo tipo de busca:

- `Recall@k` para primeira etapa de retrieval.

- `MRR` para lookup de fato único. - `Precision@k` ou `NDCG@k` para reranking. - Recall de múltiplos hops quando a resposta exige dois ou mais chunks.

Passo 4 - Avaliar geração

Depois de confirmar retrieval suficiente, avalie:

- Fidelidade: output só usa informações presentes no contexto?

- Relevância: output responde a pergunta feita? - Omissão: contexto relevante foi ignorado? - Interpretação: o contexto foi distorcido?

### Passo 5 - Otimizar a etapa correta

Se retrieval falha, teste chunk size, overlap, metadados, filtros e reranking. Se retrieval passa mas resposta falha, ajuste prompt, formato de contexto, regras de citação ou juiz de fidelidade.
Constelação

Onde
ela vive.