Papers·2일 전

USC, 반복 정제를 내재화하는 Attractor Model — 770M이 1.3B Transformer를 능가

USC 팀이 제안한 Attractor Model은 backbone이 출력 임베딩을 제안한 후 attractor가 고정점을 찾아 정제하며, 암시적 미분으로 학습합니다. 언어 모델링에서 perplexity를 최대 46.6% 개선하고, 770M 모델이 2배 토큰으로 학습한 1.3B Transformer를 능가했습니다. 추론 과제(Sudoku-Extreme 91.4%, Maze-Hard 93.1%)에서는 Claude, GPT o3가 실패하는 상황에서도 좋은 성능을 보였으며, 학습 후 solver를 제거해도 성능 저하가 거의 없는 equilibrium internalization 현상을 발견했습니다. 다만 대규모 학습에 필요한 compute 자원이 명시되지 않아 재현성 확인이 필요합니다.

#iterative-refinement
#implicit-differentiation
#usc
#language-modeling
#reasoning

University of Southern California

원문 보기 →

USC, 반복 정제를 내재화하는 Attractor Model — 770M이 1.3B Transformer를 능가

Comments