SkillEngenhariaQA
Evaluating RAG Pipeline
Avalia retrieval e geração em pipelines RAG separadamente para localizar o gargalo real.
Ações
PerfilDev
ProfundidadeAlta
Idiomapt-BR
Objetivo
Em uma frase.
Medir retrieval e geração como componentes distintos. Um RAG só pode responder com fidelidade se recuperou contexto suficiente; por isso retrieval deve ser diagnosticado antes de ajustar o gerador.
Aplicação
Quando
faz sentido.
Usar
- Quando respostas RAG ignoram informação que deveria estar na base.
- Quando respostas incluem fatos ausentes do contexto recuperado.
- Quando mudanças de chunking, embeddings ou reranking precisam ser comparadas.
- Depois de error analysis indicar falhas de recuperação ou grounding.
Prompt
Instruções
para a IA.
Passo 1 - Separar falha de retrieval e geração
Para cada trace, pergunte:
- O documento/chunk necessário foi recuperado?
- Ele apareceu alto o suficiente no ranking?
- A resposta final foi fiel ao contexto recuperado?
- A resposta respondeu a query original?Passo 2 - Construir dataset de retrieval
Monte pares `query -> chunks relevantes`. Prefira curadoria manual para casos críticos. Use geração sintética apenas como escala, filtrando perguntas irreais ou ambíguas.
### Passo 3 - Medir retrieval
Escolha métrica pelo tipo de busca:
- `Recall@k` para primeira etapa de retrieval.
- `MRR` para lookup de fato único.
- `Precision@k` ou `NDCG@k` para reranking.
- Recall de múltiplos hops quando a resposta exige dois ou mais chunks.Passo 4 - Avaliar geração
Depois de confirmar retrieval suficiente, avalie:
- Fidelidade: output só usa informações presentes no contexto?
- Relevância: output responde a pergunta feita?
- Omissão: contexto relevante foi ignorado?
- Interpretação: o contexto foi distorcido?### Passo 5 - Otimizar a etapa correta
Se retrieval falha, teste chunk size, overlap, metadados, filtros e reranking. Se retrieval passa mas resposta falha, ajuste prompt, formato de contexto, regras de citação ou juiz de fidelidade.
Constelação
Onde
ela vive.
Workflows que usam
Bundles que incluem