Papers·1개월 전

Ai2, 언어 조건부 3D 포인트 모션 예측 모델 MolmoMotion 공개 — 111개 객체·61개 동작 타입 벤치마크에서 기존 대비 우위

Ai2 팀이 언어로 목표를 지정하면 객체의 3D 포인트 궤적을 예측하는 MolmoMotion 모델을 공개했습니다. 116만 개 비디오에서 추출한 3D 포인트 궤적 데이터셋 MolmoMotion-1M과 111개 객체·61개 동작 타입의 벤치마크 PointMotionBench를 함께 구축했고, 자회귀 좌표 예측과 flow-matching 기반 궤적 생성을 모두 지원합니다. 기존 모션 예측 baseline 대비 유의미한 성능 향상을 보였으며, 로봇 조작 학습 효율과 비디오 생성의 모션 현실성 향상으로 전이됩니다.

Ai2가 언어 조건부 3D 포인트 모션 예측 모델 MolmoMotion을 내놨습니다. 116만 비디오에서 뽑은 대규모 데이터셋과 111개 객체·61개 동작 벤치마크를 함께 공개했네요.

핵심 결론

태스크 — 주어진 비디오 히스토리와 3D 쿼리 포인트, 언어 목표로 각 포인트의 미래 3D 궤적을 예측합니다.
성능 — PointMotionBench에서 기존 모션 예측 baseline 대비 유의미하게 높은 정확도를 기록했습니다.
전이 — 로봇 조작 학습 효율과 비디오 생성의 모션 현실성 향상에 기여하는 것을 확인했습니다.

방법

데이터 — MolmoMotion-1M: 116만 개 비디오에서 action-described, object-grounded 3D 포인트 궤적을 자동 추출한 대규모 코퍼스입니다.
벤치마크 — PointMotionBench: 111개 객체 카테고리, 61개 동작 타입을 포함한 사람 검증 벤치마크입니다.
모델 — MolmoMotion은 autoregressive coordinate prediction과 flow-matching 기반 trajectory generation을 모두 지원하는 범용 모델입니다.
표현 — 3D world 좌표의 포인트를 사용하여 class-agnostic, view-stable, compact한 표현을 달성했습니다.

한계·조건

데이터 — 비디오에서 자동 추출된 궤적이므로 노이즈가 포함될 가능성이 있으며, 사람 검증 벤치마크는 샘플 단위로만 이루어졌습니다.
범위 — 벤치마크는 111개 객체·61개 동작으로 제한되어 있어, 더 다양한 시나리오에서의 일반화는 추가 검증이 필요합니다.
코드 — 논문 발표 시점에서 코드와 데이터셋의 공개 여부는 명시되지 않았습니다.

편집자 한 줄

3D 포인트 기반 모션 예측은 로봇·자율주행·비디오 생성 등 여러 downstream에 바로 연결될 수 있어서, 데이터셋 규모와 벤치마크 구성이 특히 눈에 띄네요.

#motion-forecasting
#3d-points
#ai2
#language-conditioned

Ai2

원문 보기 →

Ai2, 언어 조건부 3D 포인트 모션 예측 모델 MolmoMotion 공개 — 111개 객체·61개 동작 타입 벤치마크에서 기존 대비 우위

핵심 결론

방법

한계·조건

Comments