Papers·1개월 전

CMU & MBZUAI, SR²AM — 에이전트가 계획 시점과 깊이를 스스로 조절하는 3계층 구조, 30B 모델이 1T급 성능에 95% 적은 토큰 사용

CMU & MBZUAI 팀이 에이전트 추론을 세 가지 시스템(반응형 System I, 시뮬레이션 기반 계획 System II, 자기 조절 System III)으로 분해한 SR²AM을 제안했습니다. System II는 LLM을 세계 모델로 삼아 미래 상태를 예측하며 계획을 수립하고, System III는 학습된 설정기가 계획의 필요성과 깊이를 결정합니다. v1.0-30B 모델은 수학·과학·표 분석·웹 검색에서 685B~1T 파라미터 시스템과 경쟁력 있는 Pass@1을 달성했으며, 비교 대상 에이전트 LLM 대비 추론 토큰을 25.8~95.3% 절감했습니다. RL 훈련 후 평균 계획 지평은 22.8% 증가했지만 계획 빈도는 2.0%만 늘어, 더 자주가 아니라 더 멀리 계획하도록 학습된 점이 흥미롭습니다.

#agent
#planning
#self-regulation
#llm
#cmu

SAILING Lab (CMU & MBZUAI)

원문 보기 →

CMU & MBZUAI, SR²AM — 에이전트가 계획 시점과 깊이를 스스로 조절하는 3계층 구조, 30B 모델이 1T급 성능에 95% 적은 토큰 사용

Comments