Papers·5일 전

UCSD, 문제 샘플링을 구조-aware Bayesian 커리큘럼으로 — LLM 추론 RL 효율 1.5x

UCSD 팀이 LLM 추론 강화학습에서 문제 샘플링을 구조-aware Bayesian Manifold Curriculum (BMC)으로 개선했습니다. 기존 bandit 기반 커리큘럼이 난이도만 고려한 반면, BMC는 문제를 계층적 태스크 트리로 조직화하고 모델의 잠재 표현 공간에서의 관계를 활용해 샘플링을 가이드합니다. 실험 결과, 난이도 우선 전략보다 생산성·다양성·유용성 간 균형이 중요하며, BMC가 다양한 벤치마크에서 평균 1.5배 효율 향상을 보였습니다.

UCSD 팀이 LLM 추론 RL의 문제 샘플링을 구조-aware Bayesian 커리큘럼(BMC)으로 개선, 기존 난이도 중심 전략 대비 효율을 1.5배 높였습니다.

핵심 결론

태스크 — LLM 추론 강화학습에서 문제 샘플링 최적화 — 다양한 수학·논리 벤치마크에서 평균 1.5배 학습 효율 향상.
핵심 발견 — 난이도만 우선하는 전략은 생산성·다양성·유용성 간 트레이드오프를 놓쳐 오히려 성능이 떨어집니다.

방법

구조적 bandit — 문제를 독립적인 팔(arm)이 아닌, 모델의 잠재 표현 공간에서 연결된 manifold로 간주합니다.
계층적 태스크 트리 — 문제들을 유형·난이도에 따라 계층 트리로 조직화하고, Bayesian 학습으로 샘플링 확률을 업데이트합니다.
내생적 비정상성(endogenous non-stationarity)을 모델링해, 샘플링 결정이 학습 신호의 공간적 진화에 미치는 영향을 반영한 점이 독특합니다.

한계·조건

환경 — 실험은 7B~13B 규모 모델, 수학·논리 태스크에 국한 — 코드·에이전트 태스크에서의 일반화는 추가 검증 필요.
코드 — 논문 내 알고리즘 설명은 상세하나, 공개 코드는 아직 확인되지 않았습니다.

편집자 한 줄

문제 샘플링에 구조적 정보를 도입한 점은 직관적이면서도 실용적인 접근. 다만 태스크 트리를 수동으로 정의해야 한다는 점이 실제 적용의 장벽이 될 수 있겠네요.

#reinforcement-learning
#curriculum-learning
#llm
#ucsd

University of California at San Diego

원문 보기 →

UCSD, 문제 샘플링을 구조-aware Bayesian 커리큘럼으로 — LLM 추론 RL 효율 1.5x

핵심 결론

방법

한계·조건

Comments