Papers·4일 전
4DThinker: VLM이 잠재 공간에서 동적 장면을 시뮬레이션하며 추론 — 4D 추론 벤치마크에서 SOTA

Tsinghua 팀이 VLM이 연속적인 잠재 공간에서 동적 장면을 내부 시뮬레이션하며 추론하는 4DThinker 프레임워크를 제안했습니다. 핵심은 주석 없는 4D 데이터 생성 파이프라인, 텍스트와 4D 잠재를 함께 지도하는 Dynamic-Imagery Fine-Tuning(DIFT), 그리고 텍스트 토큰에만 정책 그래디언트를 제한해 안정적 학습을 하는 4D Reinforcement Learning(4DRL)입니다. 여러 동적 공간 추론 벤치마크에서 기존 VLM 대비 일관된 성능 향상을 보였으며, 코드도 공개되어 있습니다.
- #vision-language-models
- #4d-reasoning
- #spatial-reasoning
- #tsinghua
Tsinghua University