Papers·1개월 전

ACTS: 에이전트 기반 Chain-of-Thought 추론 제어 — 토큰 60% 절감하며 성능 유지

UC San Diego 팀이 추론 효율을 높이는 Agentic Chain-of-Thought Steering (ACTS)을 제안했습니다. 컨트롤러 에이전트가 추론 과정을 관찰하며 예산에 맞춰 전략과 구문을 동적으로 선택해 frozen reasoner를 steer하는 방식입니다. 여러 벤치마크에서 full-thinking 성능을 유지하면서 토큰 사용량을 최대 60%까지 줄였고, 정확도-효율 트레이드오프를 제어할 수 있습니다. 단, 컨트롤러 학습에 합성 궤적과 RL이 필요해 초기 학습 비용이 듭니다.

UC San Diego 팀이 추론 예산에 맞춰 reasoning trace를 동적으로 steer하는 ACTS를 공개했습니다.

핵심 결론

성능 — MATH, GSM8K, GPQA 등에서 full-thinking CoT와 동등한 정확도 유지.
효율 — 토큰 사용량 최대 60% 절감, 예산에 따라 정확도-효율 트레이드오프 제어 가능.

방법

구조 — frozen reasoner 위에 controller agent를 두고, 각 step에서 reasoning trace와 남은 예산을 관찰해 steering action(전략 + 구문)을 출력.
학습 — 합성 steering 궤적으로 초기화 후, budget-conditioned reward shaping으로 RL 최적화.
컨트롤러는 8B 크기의 Llama 기반이며, reasoner는 그대로 둔 채 추론만 steer합니다.

한계·조건

비용 — 컨트롤러 학습에 합성 데이터 생성과 RL이 필요해 초기 오버헤드가 있습니다.
범위 — 벤치마크는 수학·과학 QA 위주로, 일반 도메인에서의 일반화는 추가 검증이 필요합니다.
코드 — GitHub에 공개되어 재현 가능합니다.

편집자 한 줄

예산을 사전에 설정할 수 있어 실용적인데, 컨트롤러 자체의 추론 비용이 추가로 든다는 점은 감안해야겠네요.

#chain-of-thought
#inference-efficiency
#reinforcement-learning
#uc-san-diego

University of California at San Diego

원문 보기 →

ACTS: 에이전트 기반 Chain-of-Thought 추론 제어 — 토큰 60% 절감하며 성능 유지

핵심 결론

방법

한계·조건

Comments