← Back to feed
Papers·어제

단일 영상 골격 모션 캡처를 최초로 완전 종단간 학습 — 회전 오차 17°→10°, 추론 20배 빠름

단일 영상 골격 모션 캡처를 최초로 완전 종단간 학습 — 회전 오차 17°→10°, 추론 20배 빠름

Kehong Gong 팀이 단일 영상에서 임의 골격의 모션을 캡처하는 최초의 완전 종단간 프레임워크를 제안했습니다. 기존 Video-to-Pose + 분석적 IK 방식의 한계(회전 모호성, 비미분 가능)를 극복하기 위해, 참조 포즈-회전 쌍을 도입해 회전 예측을 조건부 문제로 정형화하고, 두 단계를 공유하는 GL-GMHA 모듈로 공동 최적화합니다. Truebones Zoo와 Objaverse에서 회전 오차를 약 17°에서 10°로 줄였고, 보지 못한 골격에 대해 6.54°를 달성했으며, 메시 기반 파이프라인 대비 추론 속도가 약 20배 빠릅니다. 단, 참조 포즈-회전 쌍이 필요하다는 조건이 붙습니다.

Kehong Gong

Comments

— 첫 댓글을 남겨보세요 —