← Back to feed
Papers·1주 전

Q-RAG: 강화학습으로 임베더를 미세조정해 다단계 검색 — BabiLong·RULER 10M 토큰에서 SOTA

Q-RAG: 강화학습으로 임베더를 미세조정해 다단계 검색 — BabiLong·RULER 10M 토큰에서 SOTA

Q-RAG는 기존 RAG의 단일 검색 한계를 넘어, 강화학습(RL)으로 임베더(Embedder) 모델 자체를 다단계 검색에 최적화한 접근법입니다. LLM을 미세조정하는 대신 임베더만 학습하므로 자원 효율이 높고, 더 큰 LLM과도 호환됩니다. BabiLong과 RULER 벤치마크에서 10M 토큰 컨텍스트까지 SOTA를 달성했지만, 오픈 도메인 QA에 국한된 평가라는 점은 감안할 필요가 있습니다.

Artyom Sorokin

Comments

— 첫 댓글을 남겨보세요 —