← Back to feed
Papers·4일 전

북경대, 모션 생성을 위한 이중 주파수 토크나이저 DSFT — HumanML3D Diversity 갭 50% 감소

북경대, 모션 생성을 위한 이중 주파수 토크나이저 DSFT — HumanML3D Diversity 갭 50% 감소

북경대 연구팀이 장면 이미지와 텍스트로 사실적인 인간 모션을 생성하는 MotionVLA를 발표했습니다. 기존 단일 코드북 방식이 저주파 포즈와 고주파 물리 동역학을 같은 공간에 양자화하는 문제를 지적하며, DCT 계수 분석을 통해 포즈(5개 계수로 93% 에너지)와 속도(37% 에너지) 간 불일치를 확인했습니다. 제안하는 DSFT는 모션을 Base(포즈)와 Physical(물리) 스트림으로 분리해 각각 DCT 절단과 BPE로 독립 압축하고, Qwen3.5 기반 VLA가 Base 토큰 이후 Physical 토큰을 예측합니다. 2B 경량 백본임에도 HumanML3D에서 실제 데이터와의 Diversity 격차를 50% 이상 줄이고, MBench에서 Motion-Condition Consistency를 3.8% 개선했습니다.

북경대 연구팀이 모션 생성을 위한 이중 주파수 토크나이저 DSFT와 이를 기반으로 한 MotionVLA를 공개했습니다.

핵심 결론

  • 태스크장면 이미지와 텍스트로 사실적인 인간 모션 생성.
  • 성능HumanML3D에서 Diversity 갭 50% 이상 감소, MBench에서 Motion-Condition Consistency 3.8% 향상.
  • 백본Qwen3.5 기반 2B 경량 모델로 달성한 점이 특이합니다.

방법

  • 주파수 분석DCT 계수 분석 결과, 포즈는 5개 계수로 93% 에너지 포착되나 속도는 37%에 불과해 단일 코드북이 고주파를 과소대표함을 발견.
  • DSFT모션을 Base(포즈)와 Physical(물리 동역학) 스트림으로 분리, 각각 DCT 절단과 BPE로 독립 양자화.
  • MotionVLABase 토큰 이후 Physical 토큰을 예측하는 autoregressive VLA.

한계·조건

  • 데이터HumanML3D와 MBench 두 벤치마크로 제한적 평가.
  • 규모2B 백본이라 더 큰 모델 대비 성능 비교는 아직.
  • 코드GitHub 공개, 웹사이트도 운영 중.

편집자 한 줄

주파수 도메인 분석을 통해 모션 양자화의 근본적 문제를 짚은 점이 흥미롭습니다. 경량 모델로도 Diversity 개선이 크게 나타난 건 실용성 측면에서 긍정적 신호네요.

  • #motion-generation
  • #tokenizer
  • #frequency-domain
  • #peking-university
  • #vla
Peking University
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —