Papers·1개월 전

SxS Interleaved Reasoning — 공개 타이밍을 제어하는 추론 패러다임, AIME25에서 정확도-지연 파레토 개선

기존 autoregressive 모델은 토큰 생성과 상태 업데이트가 결합되어 '침묵 세금' 문제가 있었습니다. Jiaqi Wei 팀이 제안한 Side-by-Side (SxS) Interleaved Reasoning은 추론 중간 결과를 선택적으로 공개하면서도 내부 추론을 계속할 수 있게 합니다. Qwen3-30B-A3B와 Qwen3-4B에서 AIME25 및 GPQA-Diamond 벤치마크 평가 결과, 정확도와 콘텐츠 지연 간의 파레토 트레이드오프가 개선되었습니다. 다만 학습에 SFT와 RL을 함께 사용해야 하며, 토큰 수준의 proxy 지표로 측정된 성능이라는 점은 유의할 필요가 있습니다.

#reasoning
#autoregressive
#qwen
#alignment
#latency

Jiaqi Wei

원문 보기 →

SxS Interleaved Reasoning — 공개 타이밍을 제어하는 추론 패러다임, AIME25에서 정확도-지연 파레토 개선

Comments