Papers·4일 전
북경대, 모션 생성을 위한 이중 주파수 토크나이저 DSFT — HumanML3D Diversity 갭 50% 감소

북경대 연구팀이 장면 이미지와 텍스트로 사실적인 인간 모션을 생성하는 MotionVLA를 발표했습니다. 기존 단일 코드북 방식이 저주파 포즈와 고주파 물리 동역학을 같은 공간에 양자화하는 문제를 지적하며, DCT 계수 분석을 통해 포즈(5개 계수로 93% 에너지)와 속도(37% 에너지) 간 불일치를 확인했습니다. 제안하는 DSFT는 모션을 Base(포즈)와 Physical(물리) 스트림으로 분리해 각각 DCT 절단과 BPE로 독립 압축하고, Qwen3.5 기반 VLA가 Base 토큰 이후 Physical 토큰을 예측합니다. 2B 경량 백본임에도 HumanML3D에서 실제 데이터와의 Diversity 격차를 50% 이상 줄이고, MBench에서 Motion-Condition Consistency를 3.8% 개선했습니다.
북경대 연구팀이 모션 생성을 위한 이중 주파수 토크나이저 DSFT와 이를 기반으로 한 MotionVLA를 공개했습니다.
핵심 결론
- 태스크 — 장면 이미지와 텍스트로 사실적인 인간 모션 생성.
- 성능 — HumanML3D에서 Diversity 갭 50% 이상 감소, MBench에서 Motion-Condition Consistency 3.8% 향상.
- 백본 — Qwen3.5 기반 2B 경량 모델로 달성한 점이 특이합니다.
방법
- 주파수 분석 — DCT 계수 분석 결과, 포즈는 5개 계수로 93% 에너지 포착되나 속도는 37%에 불과해 단일 코드북이 고주파를 과소대표함을 발견.
- DSFT — 모션을 Base(포즈)와 Physical(물리 동역학) 스트림으로 분리, 각각 DCT 절단과 BPE로 독립 양자화.
- MotionVLA — Base 토큰 이후 Physical 토큰을 예측하는 autoregressive VLA.
한계·조건
- 데이터 — HumanML3D와 MBench 두 벤치마크로 제한적 평가.
- 규모 — 2B 백본이라 더 큰 모델 대비 성능 비교는 아직.
- 코드 — GitHub 공개, 웹사이트도 운영 중.
편집자 한 줄
주파수 도메인 분석을 통해 모션 양자화의 근본적 문제를 짚은 점이 흥미롭습니다. 경량 모델로도 Diversity 개선이 크게 나타난 건 실용성 측면에서 긍정적 신호네요.
- #motion-generation
- #tokenizer
- #frequency-domain
- #peking-university
- #vla
Peking University