Papers·1개월 전

AtlasVA: 시각 기반 메모리로 VLM 에이전트 공간 추론 강화 — Sokoban 등 4개 벤치마크에서 텍스트 메모리 대비 우위

USTC 팀이 VLM 에이전트의 경험 재사용을 위해 시각적 메모리 프레임워크 AtlasVA를 제안했습니다. 기존 텍스트 기반 메모리는 공간 정보 손실이 크고 외부 교사 모델이 필요했지만, AtlasVA는 공간 히트맵, 시각 예시, 텍스트 스킬의 3계층 메모리와 위험·친화 아틀라스를 자체 진화시켜 잠재 기반 보상으로 활용합니다. Sokoban, FrozenLake, 3D 탐색 및 로봇 조작 벤치마크에서 텍스트 중심 베이스라인을 일관되게 능가했으며, 특히 공간 집약적 태스크에서 큰 격차를 보였습니다. 단, 실험 환경이 시뮬레이션에 국한되어 실제 로봇 적용 시 추가 검증이 필요합니다.

#vlm
#memory
#reinforcement-learning
#spatial-reasoning
#ustc

Pan Wang

원문 보기 →

AtlasVA: 시각 기반 메모리로 VLM 에이전트 공간 추론 강화 — Sokoban 등 4개 벤치마크에서 텍스트 메모리 대비 우위

Comments