Papers·4일 전
PUMA: 추론 중복 감지로 토큰 26.2% 절약 — LRM 과잉 사고 방지

UIC 팀이 Large Reasoning Model(LRM)의 과잉 사고 문제를 해결하는 PUMA 프레임워크를 제안했습니다. 답변 수준 신호 대신 추론 단계 간 의미적 중복을 감지해, 해결책이 안정화된 후에도 계속 추론하는 토큰 낭비를 줄입니다. 5개 LRM과 5개 벤치마크에서 정확도와 추론 체인의 일관성을 유지하며 평균 26.2%의 토큰을 줄였고, 코드 생성·제로샷 VL 추론 등으로 일반화 가능성도 확인했습니다. 단, 학습 기반 정책 내재화 실험은 추가 학습이 필요한 점이 한계입니다.
- #reasoning
- #efficiency
- #early-exit
- #lrm
- #uic
University of Illinois Chicago