← Back to feed
Papers·3일 전

SxS Interleaved Reasoning — 공개 타이밍을 제어하는 추론 패러다임, AIME25에서 정확도-지연 파레토 개선

SxS Interleaved Reasoning — 공개 타이밍을 제어하는 추론 패러다임, AIME25에서 정확도-지연 파레토 개선

기존 autoregressive 모델은 토큰 생성과 상태 업데이트가 결합되어 '침묵 세금' 문제가 있었습니다. Jiaqi Wei 팀이 제안한 Side-by-Side (SxS) Interleaved Reasoning은 추론 중간 결과를 선택적으로 공개하면서도 내부 추론을 계속할 수 있게 합니다. Qwen3-30B-A3B와 Qwen3-4B에서 AIME25 및 GPQA-Diamond 벤치마크 평가 결과, 정확도와 콘텐츠 지연 간의 파레토 트레이드오프가 개선되었습니다. 다만 학습에 SFT와 RL을 함께 사용해야 하며, 토큰 수준의 proxy 지표로 측정된 성능이라는 점은 유의할 필요가 있습니다.

Jiaqi Wei

Comments

— 첫 댓글을 남겨보세요 —