Papers·1개월 전

Q-RAG: 강화학습으로 임베더를 미세조정해 다단계 검색 — BabiLong·RULER 10M 토큰에서 SOTA

Q-RAG는 기존 RAG의 단일 검색 한계를 넘어, 강화학습(RL)으로 임베더(Embedder) 모델 자체를 다단계 검색에 최적화한 접근법입니다. LLM을 미세조정하는 대신 임베더만 학습하므로 자원 효율이 높고, 더 큰 LLM과도 호환됩니다. BabiLong과 RULER 벤치마크에서 10M 토큰 컨텍스트까지 SOTA를 달성했지만, 오픈 도메인 QA에 국한된 평가라는 점은 감안할 필요가 있습니다.

#rag
#multi-step-retrieval
#reinforcement-learning
#embedder
#long-context

Artyom Sorokin

원문 보기 →

Q-RAG: 강화학습으로 임베더를 미세조정해 다단계 검색 — BabiLong·RULER 10M 토큰에서 SOTA

Comments