← Back to feed
Papers·4일 전

Princeton, VLM 에이전트에 PPO 적용 — Super Mario Land 100+ 턴에서 3배 진행률 개선

Princeton, VLM 에이전트에 PPO 적용 — Super Mario Land 100+ 턴에서 3배 진행률 개선

Princeton 팀이 오픈소스 프레임워크 Odysseus를 공개했습니다. VLM을 Super Mario Land 같은 장기 의사결정 환경(100+ 턴)에서 학습시키기 위해 PPO에 turn-level critic을 추가한 변형을 제안했는데, GRPO나 Reinforce++ 대비 훈련 안정성과 샘플 효율이 크게 개선되었습니다. 기존 프론티어 모델 대비 평균 3배 이상 게임 진행률을 달성했으며, 교차 게임 일반화에서도 일관된 향상을 보였습니다. 단, 실험은 Super Mario Land에 국한되었고, PPO critic이 추가 연산을 요구한다는 점은 한계입니다.

Princeton University

Comments

— 첫 댓글을 남겨보세요 —