Papers·4일 전
Tencent Hunyuan, Listwise Policy Optimization (LPO) 공개 — RLVR 목적 함수의 기하학적 구조를 명시적 투영으로 해석

Tencent Hunyuan 팀이 RLVR(Reinforcement Learning with Verifiable Rewards)에서 사용되는 그룹 기반 정책 경사법들이 공통적으로 응답 단순체(simplex) 위에 암시적 목표 분포를 정의하고 1차 근사로 투영한다는 기하학적 구조를 밝혔습니다. 이를 바탕으로 제안한 Listwise Policy Optimization (LPO)은 제약된 RL 목적을 단순체로 제한하고 정확한 발산 최소화로 투영하는 방식입니다. LPO는 다양한 추론 태스크와 LLM 백본에서 기존 정책 경사법 대비 일관된 성능 향상을 보였으며, 최적화 안정성과 응답 다양성도 유지했습니다. 다만 논문에서 제시한 벤치마크가 특정 도메인에 국한될 가능성과, 대규모 모델에서의 계산 비용에 대한 추가 분석이 필요해 보입니다.
- #reinforcement-learning
- #policy-gradient
- #llm
- #tencent
Tencent Hunyuan