Papers·어제
Humanoid-GPT: 20억 프레임 모션 데이터로 사전학습한 전신 제어 Transformer — 제로샷 일반화 SOTA

Zekun Qi 팀이 20억 프레임 규모의 모션 코퍼스로 사전학습한 GPT 스타일 Transformer, Humanoid-GPT를 공개했습니다. 기존 MLP 기반 트래커의 데이터 부족과 민첩성-일반화 트레이드오프를 극복하기 위해, 모든 주요 모션캡처 데이터셋과 대규모 사내 녹화 데이터를 통합한 2B-frame 코퍼스로 인과적 attention을 학습시켰습니다. 그 결과, 고도로 동적인 동작 추적과 함께 보지 못한 동작 및 제어 태스크에 대해 제로샷 일반화에서 새로운 성능 기준을 세웠습니다.
20억 프레임 모션 데이터로 사전학습한 GPT 스타일 Transformer, Humanoid-GPT가 전신 제어에서 제로샷 일반화 SOTA를 달성했습니다.
핵심 결론
- 벤치 — 기존 MLP 기반 트래커 대비 고도로 동적인 동작 추적에서 성능 우위, 보지 못한 동작 및 제어 태스크에 제로샷 일반화 성능이 크게 향상되었습니다.
- 모델 — GPT 스타일의 인과적 attention Transformer, 2B-frame 코퍼스로 사전학습.
방법
- 데이터 — 모든 주요 모션캡처 데이터셋과 대규모 사내 녹화를 통합한 20억 프레임 코퍼스를 구축, 리타겟팅하여 통일된 표현으로 변환했습니다.
- 아키텍처 — 인과적 attention을 가진 GPT 스타일 Transformer로, 시퀀스 예측 방식으로 사전학습 후 제어 태스크에 파인튜닝합니다.
- 데이터와 모델 용량을 동시에 스케일링하여 단일 생성형 Transformer로 동적 동작 추적과 제로샷 일반화를 동시에 달성한 점이 핵심입니다.
한계·조건
- 데이터 — 사내 녹화 데이터의 규모와 구성이 공개되지 않아 재현성에 한계가 있습니다.
- 환경 — 추론 시 필요한 compute 자원에 대한 구체적인 정보는 논문에 명시되지 않았습니다.
- 코드 — 현재 코드 및 모델 가중치는 공개되지 않았습니다.
편집자 한 줄
데이터 규모가 인상적이지만, 사내 데이터 의존도가 높아 외부 재현이 어려울 수 있다는 점은 염두에 둘 만합니다.
- #humanoid
- #transformer
- #motion-capture
- #zero-shot
- #gpt
Zekun Qi