Papers·1개월 전

VerbatimRAG: ACL 논문에서 hallucination 없는 extractive QA — ModernBERT 150M, F1 53.6

KR Labs 팀이 LLM hallucination 문제를 피하기 위해 ACL Anthology 논문에서 정확한 텍스트 스팬을 추출하는 VerbatimRAG 시스템을 제안했습니다. ScIRGen 기반 합성 쿼리와 NLP 연구자의 수동 주석으로 구축한 벤치마크에서 150M ModernBERT token classifier가 word-level F1 53.6으로 가장 강한 LLM 추출기(48.7)를 앞질렀습니다. 단, 벤치마크가 ACL 논문에 한정되어 있어 일반화 가능성은 추가 검증이 필요합니다.

KR Labs가 ACL Anthology 논문 대상 hallucination 없는 extractive QA 시스템 VerbatimRAG를 공개했습니다.

핵심 결론

태스크 — 사용자 쿼리를 논문 내 정확한 텍스트 스팬으로 매핑하는 extractive QA.
성능 — 150M ModernBERT token classifier가 word-level F1 53.6으로, 가장 강한 LLM 추출기(GPT-4 등)의 48.7을 상회.
데이터 — ScIRGen 방법론 기반 합성 쿼리 + NLP 연구자 수동 주석으로 구축한 새로운 ground truth 데이터셋.

방법

VerbatimRAG — 검색된 논문 청크에서 사용자 쿼리에 해당하는 축어적 텍스트 스팬을 직접 반환 — 생성 없이 추출만 수행.
모델 — ModernBERT token classifier를 silver supervision(파이프라인 자동 레이블)으로 학습, 이후 gold 데이터로 fine-tuning.
합성 쿼리는 ScIRGen 파이프라인으로 생성되며, ACL 논문의 구조(abstract, introduction 등)를 고려해 다양성을 확보했습니다.

한계·조건

도메인 — 벤치마크가 ACL Anthology 논문으로 한정 — 다른 학술 분야나 일반 도메인에서의 성능은 미검증.
리소스 — 150M ModernBERT는 경량이지만, 추출 파이프라인에 검색(retrieval) 단계가 포함되어 전체 지연 시간은 추가 고려 필요.
코드 — 데이터셋과 모델은 공개 예정 — 현재는 논문과 Hugging Face 페이지에서 abstract만 확인 가능.

편집자 한 줄

생성 대신 추출을 고집한 설계가 hallucination 문제에 실용적 대안이 될 수 있을지 지켜볼 만합니다.

#extractive-qa
#hallucination
#acl-anthology
#modernbert
#kr-labs

KR Labs

원문 보기 →

VerbatimRAG: ACL 논문에서 hallucination 없는 extractive QA — ModernBERT 150M, F1 53.6

핵심 결론

방법

한계·조건

Comments