Papers·4일 전
OmniHuMo-AnyMo: 5,000시간 모션 데이터로 멀티모달 조건부 모션 생성 통합

Yiheng Li 팀이 5,000시간·320만 시퀀스 규모의 멀티모달 정렬 모션 데이터셋 OmniHuMo와, Residual FSQ 기반 모션 토크나이저와 마스크드 모델링 트랜스포머를 결합한 통합 프레임워크 AnyMo를 공개했습니다. 텍스트·음성·음악·궤적 등 임의의 모달리티 조합으로 고품질 모션 합성이 가능하며, 공간·스타일 속성 제어도 유연합니다. 다만 대규모 데이터셋 구축 비용과 특정 도메인(예: 스포츠) 일반화는 추가 검증이 필요해 보입니다.
Yiheng Li 팀이 5,000시간·320만 시퀀스 규모의 멀티모달 정렬 모션 데이터셋 OmniHuMo와, Residual FSQ 기반 모션 토크나이저와 마스크드 모델링 트랜스포머를 결합한 통합 프레임워크 AnyMo를 공개했습니다.
핵심 결론
- 태스크 — 조건부 인간 모션 생성 — 텍스트, 음성, 음악, 궤적 등 여러 모달리티 조합으로 모션을 합성하는 문제를 다룹니다.
- 성능 — 기존 단일 모달리티 방법 대비 FID, Diversity, MultiModality 지표에서 일관된 개선을 보였으며, 특히 멀티모달 조건에서의 품질 저하가 거의 없습니다.
방법
- 데이터셋 — OmniHuMo는 5,000시간·320만 시퀀스로, 텍스트·음성·음악·궤적이 정밀 정렬된 대규모 모션 데이터입니다. 기존 AMASS(약 40시간) 대비 125배 규모입니다.
- 토크나이저 — Residual FSQ(Finite Scalar Quantization)를 사용해 모션 시퀀스를 이산 토큰으로 변환, 재구성 품질을 유지하면서도 압축 효율을 높였습니다.
- 생성 모델 — 마스크드 모델링 트랜스포머로, 임의의 모달리티 조합을 조건으로 마스킹된 모션 토큰을 예측합니다. 학습 시 마스크 비율을 동적으로 조절해 다양한 조건 설정에 대응합니다.
한계·조건
- 데이터 비용 — 5,000시간 규모의 정밀 정렬 데이터 구축에는 상당한 비용과 노력이 필요합니다. 저자들은 데이터 수집 파이프라인을 공개했지만, 재현에는 유사한 인프라가 필요합니다.
- 도메인 일반화 — 데이터는 주로 일상 동작과 댄스 위주로, 스포츠나 의료 재활 같은 특수 도메인에서의 일반화는 추가 검증이 필요합니다.
- 코드 공개 — 데이터셋과 모델 코드는 Hugging Face에 공개 예정이라고 밝혔으나, 현재 시점에서는 abstract와 figure만 확인 가능합니다.
편집자 한 줄
대규모 멀티모달 모션 데이터셋의 부재를 해결한 점이 가장 큰 기여입니다. 다만 데이터 구축 비용을 고려할 때, 이 규모의 데이터셋이 커뮤니티에서 얼마나 널리 사용될지는 지켜봐야 할 것 같습니다.
- #motion-generation
- #multimodal
- #dataset
- #transformer
- #tokenizer
Yiheng Li