Papers·1개월 전

AdaSR: 스트리밍 입력에서 추론 시점과 계산량을 동시에 학습하는 프레임워크

기존 read-then-think 패러다임은 정적 입력에 최적화되어 동적 스트림(오디오, 비디오)에 취약합니다. AdaSR은 입력이 스트리밍되는 동안 추론(streaming reasoning)과 입력 종료 후 심층 추론(deep reasoning)을 계층적으로 결합하고, Hierarchical Relative Policy Optimization(HRPO)으로 각 단계의 보상(형식, 정확도, 적응형 사고)을 세분화하여 학습합니다. 실험 결과, supervised fine-tuning 대비 추론 정확도, 계산 효율, 지연 시간 간 균형이 개선되었습니다.

연속적인 입력 스트림에서 모델이 언제 추론하고 얼마나 계산할지 스스로 학습하는 AdaSR 프레임워크가 공개되었습니다.

핵심 결론

태스크 — 동적 스트리밍 입력(오디오, 비디오)에 대한 실시간 추론 및 응답.
성능 — SFT baseline 대비 정확도-효율-지연 시간 간 Pareto frontier 개선.
방식 — RL 기반으로 추론 시점과 계산량을 학습 — 사람이 만든 궤적을 모방하지 않음.

방법

이중 추론 구조 — 스트리밍 추론(partial observation)과 심층 추론(full context)을 계층적으로 결합.
HRPO — 기존 sequence-level advantage 대신 streaming/deep 두 단계로 분해하여 보상 할당.
보상은 format(추론 형식), accuracy(최종 정답), adaptive thinking(지연 시간 패널티) 세 가지로 구성.

한계·조건

환경 — 실험은 특정 벤치마크(논문 내 상세 미공개)에서 수행 — 일반화 가능성은 추가 검증 필요.
코드 — GitHub 공개 완료 — EIT-NLP/StreamingLLM/AdaSR.

편집자 한 줄

스트리밍 환경에서 '언제 생각할지'를 RL로 학습한다는 발상이 흥미롭습니다. 다만 벤치마크 구성이 아직 공개되지 않아 재현성은 지켜봐야겠네요.

#streaming-reasoning
#reinforcement-learning
#adaptive-computation
#hrpo

Junlong Tong

원문 보기 →

AdaSR: 스트리밍 입력에서 추론 시점과 계산량을 동시에 학습하는 프레임워크

핵심 결론

방법

한계·조건

Comments