Papers·1개월 전

POISE: 정책 모델 내부 상태로 가치 추정 — PPO·GRPO 대비 연산량 절감

서울대 연구팀이 정책 모델의 내부 은닉 상태(hidden state)를 활용해 가치 추정기를 경량화한 POISE를 제안했습니다. PPO처럼 별도의 critic 모델이 필요 없고, GRPO처럼 여러 rollout을 뽑아 평균을 낼 필요도 없어 학습 안정성과 연산 효율을 동시에 확보합니다. Qwen3-4B와 DeepSeek-R1-Distill-Qwen-1.5B 수학 추론 벤치마크에서 DAPO와 비슷한 성능을 내면서도 연산량은 더 적었고, 가치 추정기가 별도의 LLM급 가치 모델에 준하는 성능을 보인 점이 흥미롭습니다. 다만 제안 방식은 verifiable reward가 있는 태스크에 국한되며, 코드 공개 여부는 아직 확인되지 않았습니다.

#reinforcement-learning
#rlvr
#poise
#seoul-national-university

Seoul National University

원문 보기 →

POISE: 정책 모델 내부 상태로 가치 추정 — PPO·GRPO 대비 연산량 절감

Comments