Papers·1개월 전

Idiap, 기하학적 잠재 추론으로 생성 길이 단축 — Qwen3 수리 추론 벤치에서 최대 40% 토큰 감소

Idiap 연구소가 텍스트 CoT 대신 연속적인 임베딩 공간에서 추론 경로를 근사하는 Geometric Latent Reasoning(GLR)을 제안했습니다. 경량 transition head가 토큰 임베딩 공간에서 반복적인 방향 업데이트를 예측해, 명시적 길이 제약 없이도 생성 토큰 수를 크게 줄이는 현상을 발견했습니다. Qwen3 기반 실험에서 수리 추론 정확도는 유지하면서 생성 길이가 최대 40% 감소했지만, latent step 수와 정확도 간 트레이드오프가 존재합니다.

Idiap 연구소가 명시적 CoT 대신 연속적인 임베딩 공간에서 추론 경로를 근사하는 GLR을 제안했습니다.

핵심 결론

태스크 — 수리 추론 벤치마크(GSM8K, MATH 등)에서 Qwen3-1.8B/7B 모델 평가.
개선폭 — 생성 토큰 수를 최대 40% 줄이면서도 정확도는 ±1% 이내로 유지.
명시적 길이 목적 함수 없이도 latent step이 자연스럽게 짧은 출력을 유도하는 현상을 발견했습니다.

방법

핵심 아이디어 — 텍스트 CoT를 임베딩 공간의 이산 궤적으로 간주하고, transition head가 연속적인 방향 업데이트를 예측해 이 궤적을 근사.
학습 시에는 텍스트 CoT를 anchor로 사용하지만, 추론 시에는 연속적인 latent step만으로 동작해 디코딩 단계를 줄입니다.
구조 — 기존 모델에 경량 MLP transition head 하나만 추가하므로 학습/추론 오버헤드가 작습니다.

한계·조건

트레이드오프 — Latent step 수가 너무 적으면 정확도가 떨어지고, 너무 많으면 오히려 생성 길이가 늘어나는 구간이 존재.
벤치 범위 — 수리 추론에 국한 — 상식 추론이나 코드 생성에서의 효과는 아직 확인되지 않았습니다.
재현성 — Qwen3 계열만 실험, 코드는 공개되지 않았습니다.

편집자 한 줄

연속적 잠재 추론이 생성 효율을 높일 수 있다는 점은 흥미롭지만, latent step 수를 task별로 튜닝해야 하는 점은 실용적 장벽이 될 수 있겠네요.

#latent-reasoning
#chain-of-thought
#idiap
#qwen3
#inference-efficiency

Idiap Research Institute

원문 보기 →

Idiap, 기하학적 잠재 추론으로 생성 길이 단축 — Qwen3 수리 추론 벤치에서 최대 40% 토큰 감소

핵심 결론

방법

한계·조건

Comments