Papers·2개월 전

DynaFLIP: 동작 인식까지 인코더에 통합한 로봇 비전 사전학습 — OOD +22.5%

DynaFLIP은 로봇 조작을 위해 동작 인식을 시각 인코더에 통합한 사전학습 프레임워크입니다. 이미지-언어-3D flow triplet을 이용해 공유 초구 공간에서 세 모달리티의 단체(simplex) 부피를 최소화하는 방식으로 정렬을 강화하며, 이를 통해 정적인 인식이나 VLM 기반 임베딩보다 OOD 상황에서 최대 +22.5% 향상된 성능을 보였습니다. 단, triplet 구축에 사람 영상과 로봇 영상 모두가 필요하고, 3D flow 추출에 추가 연산이 든다는 점은 실용적 제약입니다.

로봇 조작 정책의 시각 인코더가 정적 인식뿐 아니라 동작까지 이해하도록 사전학습한 DynaFLIP이 공개되었습니다.

핵심 결론

성능 — 시뮬레이션 및 실제 로봇 태스크에서 기존 사전학습 백본 대비 일관된 개선, 특히 OOD 상황에서 +22.5%.
정책 호환성 — VLA를 포함한 다양한 하위 정책에 backbone으로 적용 가능하며, 추가 미세조정 없이도 성능 향상.

방법

핵심 아이디어 — 이미지-언어-3D flow triplet을 공유 초구 공간에 임베딩하고, 세 점이 이루는 단체(simplex) 부피를 최소화하여 동작 정보를 인코더에 주입.
손실 함수 — 단순 부피 최소화는 붕괴를 유발하므로, cosine 정규화와 contrastive loss를 결합해 안정화.
데이터 — 인간 조작 영상과 로봇 영상에서 triplet을 자동 구성, 별도의 수작업 라벨링 불필요.

한계·조건

데이터 요구 — 3D flow를 얻기 위해 인간/로봇 영상 모두 필요하며, flow 추출 자체가 추가 연산 비용.
벤치마크 — 주로 조작 태스크에 특화되어 있어, 이동( navigation ) 등 다른 도메인에서의 효과는 검증되지 않음.
코드 — GitHub 저장소는 공개되어 있으나, 사전학습된 가중치 배포 여부는 미정.

편집자 한 줄

동작 정보를 인코더 단에서 미리 뽑아주는 설계는 VLA의 고질적인 데이터 효율 문제를 완화할 실마리가 될 만합니다.

#robot-learning
#pretraining
#dynamics
#multimodal
#manipulation

Jusuk Lee

원문 보기 →

DynaFLIP: 동작 인식까지 인코더에 통합한 로봇 비전 사전학습 — OOD +22.5%

핵심 결론

방법

한계·조건

Comments