← Back to feed
Papers·6일 전

POISE: 정책 모델 내부 상태로 가치 추정 — PPO·GRPO 대비 연산량 절감

POISE: 정책 모델 내부 상태로 가치 추정 — PPO·GRPO 대비 연산량 절감

서울대 연구팀이 정책 모델의 내부 은닉 상태(hidden state)를 활용해 가치 추정기를 경량화한 POISE를 제안했습니다. PPO처럼 별도의 critic 모델이 필요 없고, GRPO처럼 여러 rollout을 뽑아 평균을 낼 필요도 없어 학습 안정성과 연산 효율을 동시에 확보합니다. Qwen3-4B와 DeepSeek-R1-Distill-Qwen-1.5B 수학 추론 벤치마크에서 DAPO와 비슷한 성능을 내면서도 연산량은 더 적었고, 가치 추정기가 별도의 LLM급 가치 모델에 준하는 성능을 보인 점이 흥미롭습니다. 다만 제안 방식은 verifiable reward가 있는 태스크에 국한되며, 코드 공개 여부는 아직 확인되지 않았습니다.

  • #reinforcement-learning
  • #rlvr
  • #poise
  • #seoul-national-university
Seoul National University

Comments

— 첫 댓글을 남겨보세요 —