Papers·1개월 전

ImageWAM: 로봇 액션 예측에 이미지 편집 모델 활용 — 비디오 생성 대비 FLOPs 1/6, 지연 1/4

중국 연구팀(Yuyang Zhang 등)이 비디오 생성 대신 이미지 편집 모델을 활용하는 World Action Model인 ImageWAM을 제안했습니다. 비디오 기반 WAM은 추론 비용이 크고, 액션과 무관한 시각적 세부까지 예측해야 하는 비효율이 있었는데, ImageWAM은 사전학습된 이미지 편집 모델의 KV cache를 액션 전문가의 조건으로 사용해 목표 프레임을 직접 디코딩하지 않습니다. 시뮬레이터와 실제 로봇 실험에서 표준 VLA 및 경쟁 WAM 대비 우수한 성능을 보였으며, FLOPs는 1/6, 지연 시간은 1/4로 줄였습니다. 단, 이미지 편집 모델의 사전학습이 필요하고, 편집 데이터의 품질에 민감할 수 있다는 점은 한계입니다.

비디오 생성 없이 이미지 편집 모델로 로봇 액션을 예측하는 ImageWAM이 FLOPs와 지연 시간을 대폭 줄였습니다.

핵심 결론

성능 — 시뮬레이터 및 실제 로봇 실험에서 표준 VLA 및 경쟁 WAM 대비 우수한 성능을 달성했습니다.
효율 — 비디오 기반 WAM 대비 FLOPs 1/6, 지연 시간 1/4로 감소했습니다.

방법

핵심 아이디어 — 사전학습된 이미지 편집 모델의 KV cache를 액션 전문가(flow-matching)의 조건으로 사용, 목표 프레임을 직접 디코딩하지 않습니다.
편집 모델 활용 — 이미지 편집은 현재-목표 간 액션 관련 변화에 집중하도록 사전학습되어, 비디오 생성보다 효율적입니다.
추론 시에는 편집 모델의 KV cache만 추출하여 액션 예측에 사용하므로, 추가 디코딩이 필요 없습니다.

한계·조건

사전학습 의존 — 이미지 편집 모델의 사전학습이 필요하며, 편집 데이터의 품질과 다양성에 성능이 민감할 수 있습니다.
실험 범위 — 현재까지의 실험은 특정 시뮬레이터와 소수의 실제 로봇 태스크에 국한되어, 일반화 가능성은 추가 검증이 필요합니다.

편집자 한 줄

비디오 생성 대신 이미지 편집이라는 직관적인 대안을 제시한 점이 흥미롭습니다. 다만 편집 모델의 사전학습 비용과 데이터 의존성을 고려하면, 실제 배포까지는 추가 연구가 필요해 보입니다.

#world-action-model
#image-editing
#robot-control
#efficiency

Yuyang Zhang

원문 보기 →

ImageWAM: 로봇 액션 예측에 이미지 편집 모델 활용 — 비디오 생성 대비 FLOPs 1/6, 지연 1/4

핵심 결론

방법

한계·조건

Comments