← Back to feed
Papers·어제

ATLAS: 시각 추론을 위한 단일 기능 토큰 — SFT/RL 호환, 벤치마크 SOTA

ATLAS: 시각 추론을 위한 단일 기능 토큰 — SFT/RL 호환, 벤치마크 SOTA

Ziyu Guo 팀이 시각 추론을 위해 단일 discrete 토큰('기능 토큰')을 에이전트 연산과 잠재 시각 추론 단위로 동시에 사용하는 ATLAS 프레임워크를 제안했습니다. 기능 토큰은 시각적 감독 없이도 내재된 시각 연산을 수행하며, 표준 토큰으로서 next-token prediction으로 생성 가능해 기존 SFT/RL 파이프라인과 완벽히 호환됩니다. 또한 RL 중 기능 토큰의 희소성을 해결하기 위해 LA-GRPO를 도입, 정적 가중치의 보조 목표로 학습을 안정화했습니다. 다양한 벤치마크에서 SOTA를 달성했지만, 기능 토큰의 내재된 연산이 구체적으로 무엇인지(예: 어떤 시각 변환)에 대한 해석이 아직 명확하지 않다는 한계가 있습니다.

  • #visual-reasoning
  • #functional-token
  • #rl
  • #atlas
  • #la-grpo
Ziyu Guo

Comments

— 첫 댓글을 남겨보세요 —