Papers·1개월 전

AnchorWorld: 3D 인간 모션 기반 상호작용 월드 모델링 — SOTA 대비 15% 이상 개선

Kling 팀이 3D 인간 모션을 주요 상호작용 수단으로 삼은 세계 모델링 프레임워크 AnchorWorld를 공개했습니다. 자아 중심 시점에서 잘리거나 가려진 신체 부위를 보완하기 위해 외부 시점(exogenous viewpoint)을 보조 학습 신호로 도입한 점이 핵심입니다. 또한 앵커 뷰와 텍스트 설명을 통해 세계의 동적 진화를 커스터마이징할 수 있는 메커니즘을 제안했으며, 실험 결과 SOTA 대비 상호작용 정합성과 공간적 일관성에서 유의미한 개선을 보였습니다. 단, 학습에 다중 시점 데이터가 필요해 재현 비용이 높은 편입니다.

Kling 팀이 3D 인간 모션과 외부 시점 보조 학습을 결합해 상호작용 세계 모델링의 정합성과 커스터마이징 가능성을 크게 끌어올린 AnchorWorld를 발표했습니다.

핵심 결론

태스크 — 자아 중심 시점의 상호작용 세계 모델링 — 인간-환경 상호작용의 정합성과 커스터마이징 제어를 목표.
성능 — SOTA 베이스라인 대비 상호작용 정합성 지표에서 15% 이상 개선, 커스터마이징 시나리오에서도 공간-시간 일관성 우위.

방법

3D 모션 기반 — 주 상호작용 모달리티로 3D 인간 모션을 사용, 자아 중심 시점의 한계를 극복.
외부 시점 보조 — 에이전트의 전신 자세를 관찰할 수 있는 외부 시점을 보조 학습 신호로 도입해 공간적 그라운딩 강화.
커스터마이징 — 통합 세계 좌표계에서 앵커 뷰를 정의하고 텍스트 설명으로 지역 장면의 동적 진화를 제어하는 메커니즘.

한계·조건

데이터 요구 — 다중 시점(자아+외부) 데이터가 필요해 기존 단일 시점 데이터셋으로는 재현이 어렵습니다.
범위 — 실험은 합성 환경 및 제한된 실제 데이터에서 수행, 복잡한 실제 동적 장면으로의 확장은 추가 검증이 필요합니다.
코드 — 현재 코드 및 모델 가중치는 공개되지 않았습니다.

편집자 한 줄

외부 시점을 보조 신호로 활용하는 아이디어는 자아 중심 모델링의 고질적 문제를 우회하는 실용적인 접근입니다. 다만 데이터 수집 비용이 만만치 않아 실제 적용까지는 시간이 걸릴 듯합니다.

#world-modeling
#egocentric
#3d-human-motion
#kling

Kling Team

원문 보기 →

AnchorWorld: 3D 인간 모션 기반 상호작용 월드 모델링 — SOTA 대비 15% 이상 개선

핵심 결론

방법

한계·조건

Comments