Papers·1주 전
UMass Amherst, 검색-추론 피드백 루프로 멀티홉 QA 정확도 12% 향상 — Critic-R

UMass Amherst 팀이 검색 모델과 추론 에이전트 간 피드백 루프를 명시적으로 닫는 Critic-R 프레임워크를 제안했습니다. Critic 모델이 검색된 증거가 다음 추론 단계를 충분히 지원하는지 평가하고, 실패 시 쿼리를 재작성하거나 검색 임베딩을 조정합니다. HotpotQA, 2WikiMultihopQA, MuSiQue, Bamboogle 네 벤치마크에서 검색 품질과 답변 정확도를 모두 유의미하게 개선했지만, Critic 모델 자체의 추가 추론 비용이 든다는 점은 고려할 만합니다.
UMass Amherst 연구진이 검색-추론 피드백 루프를 명시적으로 도입해 멀티홉 QA 성능을 끌어올린 Critic-R을 공개했습니다.
핵심 결론
- 벤치 — HotpotQA, 2WikiMultihopQA, MuSiQue, Bamboogle 네 데이터셋에서 검색 recall과 답변 정확도 모두 향상.
- 개선폭 — Critic-Embed 적용 시 HotpotQA에서 F1 기준 12% 상승, 다른 벤치에서도 일관된 개선.
방법
- Critic-R-Zero — 추론 시 critic 모델이 검색된 증거의 충분성을 평가하고, 불충분 시 쿼리와 검색 명령을 반복 재작성.
- Critic-Embed — 재작성 궤적 중 성공/실패 사례를 자동 레이블로 활용해 검색 모델 임베딩을 학습 — 별도의 정답 어노테이션 불필요.
- Critic 모델은 사전 학습된 언어 모델(예: Llama 3.1 8B)을 fine-tuning 하여 검색된 청크와 추론 추적을 입력으로 받아 '충분/불충분' 이진 판단을 내립니다.
한계·조건
- 비용 — Critic 모델 호출과 반복 쿼리 재작성으로 인해 추론 시 추가 지연(latency)과 계산 비용이 발생합니다.
- 의존성 — Critic 모델의 판단 정확도가 전체 성능에 큰 영향을 미치며, critic 자체의 오류가 파이프라인에 전파될 수 있습니다.
- 재현 — 코드와 모델 가중치는 공개 예정이라고 밝혔으나 현재는 논문만 공개된 상태입니다.
편집자 한 줄
별도의 정답 어노테이션 없이 자동 피드백만으로 검색 모델을 개선한 점이 실용적이네요. 다만 critic 모델의 정확도가 병목이 될 수 있어, critic 자체의 신뢰도 분석이 후속 연구로 이어질 만합니다.
- #agentic-search
- #retrieval
- #multi-hop-qa
- #critic-feedback
- #umass
University of Massachusetts Amherst