Papers·2일 전
FEST: 128개 데모로 RLVR 샘플 효율을 높인 few-shot RLVR 알고리즘

UIUC 팀이 RLVR의 샘플 효율 문제를 해결하기 위해 FEST를 제안했습니다. SFT 데이터셋에서 무작위로 128개만 골라 few-shot 데모로 활용하며, supervised signal, on-policy signal, decaying weights 세 가지 요소가 핵심입니다. 여러 벤치마크에서 전체 데이터셋으로 SFT한 baseline과 동등한 성능을 내면서도 데이터량을 크게 줄였습니다.
- #rlvr
- #llm
- #few-shot
- #uiuc
University of Illinois at Urbana-Champaign