Papers·1개월 전

iMac: 이미지를 행동 표현으로 사용하는 내장형 월드 모델 — 벡터 기반 제어 대비 성공률 12% 향상

Zhenyu Wu 연구팀이 로봇 제어를 위한 새로운 패러다임 iMac(Image as Action Control)을 제안했습니다. 기존의 저차원 구조화된 행동 벡터(관절 각도, 말단효과기 자세) 대신, raw 이미지를 직접 행동 표현으로 사용하는 것이 핵심입니다. 이미지-행동 인코더와 동적 월드 예측기로 구성된 이중 분기 아키텍처를 통해, 공개 조작 벤치마크와 실제 로봇 시나리오에서 예측 정확도, 작업 성공률, 교차 장면 일반화에서 기존 벡터 기반 제어를 능가했습니다. 다만, 이미지 기반 행동이 기존 제어 주파수 대비 얼마나 빠른지에 대한 구체적인 지연 시간 비교는 논문에서 생략되었습니다.

Zhenyu Wu 연구팀이 이미지를 직접 행동 표현으로 사용하는 내장형 월드 모델 iMac을 공개했습니다.

핵심 결론

성능 — 공개 조작 벤치마크에서 벡터 기반 제어 대비 작업 성공률 12% 향상, 예측 정확도 8% 개선.
일반화 — 교차 장면(cross-scene) 설정에서도 기존 대비 일관된 성능 우위를 보였습니다.

방법

아이디어 — 로봇의 행동을 저차원 벡터 대신 raw 이미지 토큰으로 표현 — 공간적 움직임 의도와 물리적 상호작용을 이미지에 자연스럽게 인코딩합니다.
아키텍처 — 이미지-행동 인코더가 목표 이미지를 압축해 행동 임베딩으로 만들고, 동적 월드 예측기가 이 임베딩을 조건으로 환경 전이 규칙을 학습합니다.
폐쇄 루프 제어가 가능하며, 수동으로 정의된 행동 공간이 필요 없어 다양한 로봇 플랫폼에 적용 가능합니다.

한계·조건

지연 시간 — 이미지 기반 행동의 추론 속도가 기존 벡터 기반 대비 얼마나 느린지에 대한 정량적 비교가 논문에 포함되지 않았습니다.
데이터 — 실험은 특정 조작 태스크에 국한되어 있으며, 고속 동작이나 복잡한 접촉 역학이 필요한 태스크에서의 일반화는 추가 검증이 필요합니다.
코드 — 현재 코드 공개 여부는 명시되지 않았습니다.

편집자 한 줄

이미지를 행동 표현으로 쓰는 발상은 참신하지만, 실제 로봇 제어 루프에서 이미지 인코딩-디코딩이 추가 지연을 유발할 가능성을 짚고 넘어가야 할 만합니다.

#embodied-world-models
#image-as-action
#robotic-manipulation
#visual-control
#imac

Zhenyu Wu

원문 보기 →

iMac: 이미지를 행동 표현으로 사용하는 내장형 월드 모델 — 벡터 기반 제어 대비 성공률 12% 향상

핵심 결론

방법

한계·조건

Comments