Papers·1개월 전

Dream.exe: 비디오 생성 모델의 물리적 이해도를 로봇 실행 성공률로 평가

비디오 생성 모델이 생성한 움직임이 실제 로봇 동작으로 이어질 수 있는지 평가하는 Dream.exe 프레임워크를 제안했습니다. 8개 모델을 101개 조작 태스크에서 시각 품질, 궤적 충실도, 실행 성공률로 측정한 결과, 몇몇 모델이 의미 있는 실행 성공률을 보였지만 시각 품질과 실행 가능성 간 상관관계는 낮았습니다. 코드는 GitHub에 공개 예정입니다.

비디오 생성 모델이 실제 물리 법칙을 내재화했는지 로봇 조작 태스크 실행 성공률로 평가하는 Dream.exe 프레임워크가 공개되었습니다.

핵심 결론

평가 방식 — 비디오 생성 → 모션 추출 → 로봇 궤적 변환 → 시뮬레이터 실행 파이프라인을 통해 실행 성공률을 측정합니다.
모델 비교 — 폐쇄형(예: Sora), 개방형 생성 모델, 로봇 특화 모델 등 8개 모델을 101개 태스크(3단계 물리 복잡도)로 평가했습니다.
주요 발견 — 일부 모델은 실행 성공률이 유의미했으나, 시각 품질(예: FID)과 실행 성공률 간 상관관계는 낮아 시각 평가만으로는 물리 이해도를 측정할 수 없음을 보였습니다.

방법

파이프라인 — 입력(장면 이미지+태스크 설명) → 비디오 생성 → 객체 궤적 추출(추적 모델) → 역운동학으로 로봇 팔 궤적으로 변환 → MuJoCo 시뮬레이터에서 실행.
태스크 선정 — 101개 태스크는 '단순 접촉'(예: 상자 밀기), '정밀 조작'(예: 핀 꽂기), '다단계'(예: 물건 옮겨 쌓기)로 구성, 물리적 난이도가 점진적으로 증가합니다.
평가 지표 — 시각 품질(FID, CLIP score), 궤적 충실도(생성 궤적 vs. 실제 궤적의 유사도), 실행 성공률(시뮬레이터 내 태스크 완료 여부) 세 가지를 사용했습니다.

한계·조건

시뮬레이션 한계 — 평가는 MuJoCo 시뮬레이터에서만 이루어져 실제 로봇 하드웨어에서의 일반화는 검증되지 않았습니다.
궤적 추출 의존성 — 비디오에서 객체 궤적을 추출하는 추적 모델의 정확도가 전체 파이프라인 성능에 영향을 미칩니다.
태스크 범위 — 101개 태스크는 모두 테이블 위 조작 환경으로 한정되어, 다양한 환경(예: 이동, 협동)으로의 확장이 필요합니다.
코드 공개 — GitHub에 공개 예정이며, 현재는 논문과 함께 일부 예시만 제공됩니다.

편집자 한 줄

시각 품질과 실행 가능성의 괴리는 생성 모델 평가에 물리적 기준이 필요함을 잘 보여주네요.

#video-generation
#robotics
#evaluation
#physical-reasoning

Rui Zhao

원문 보기 →

Dream.exe: 비디오 생성 모델의 물리적 이해도를 로봇 실행 성공률로 평가

핵심 결론

방법

한계·조건

Comments