Papers·어제
Stateful Visual Encoder — VLM 에 시각적 문맥 기억 기능 추가, 교차 이미지 태스크 성능 향상

기존 VLM 은 각 이미지를 독립적으로 인코딩해 시각적 변화 감지에 취약했는데, Stateful Visual Encoder 가 이전 시각 특징을 조건으로 현재 표현을 생성하도록 설계했습니다. 교차 이미지 공간 집계, 다중 객체 시각 차분, 궤적 행동 클로닝 등에서 일관된 개선을 보였고, 종단 방사선학·미세 이미지 비교·원격 탐사 같은 실제 태스크에서도 일반 VLM 대비 우수하거나 특화 모델에 준하는 성능을 냈습니다. 단, supervised finetuning 환경에서만 검증되어 사전학습 단계 효과는 아직 확인되지 않았습니다.
VLM 이 여러 이미지를 비교할 때 시각 인코더가 stateless 라서 미세한 변화를 놓치는 문제를 해결하기 위해, 이전 시각 특징을 기억하는 Stateful Visual Encoder 를 제안합니다.
핵심 결론
- 태스크 — 교차 이미지 공간 집계, 다중 객체 시각 차분, 궤적 행동 클로닝에서 supervised finetuning 기준 일관된 개선.
- 실제 태스크 — 종단 방사선학, 미세 이미지 비교, 원격 탐사에서 일반 VLM 대비 일관된 향상, 일부 도메인에서는 특화 모델과 동등 이상.
방법
- 핵심 아이디어 — 각 이미지 패치의 visual representation 을 이전 이미지의 visual feature 에 conditioning 하여 생성.
- 구조 — 기존 VLM 의 visual encoder 뒤에 cross-attention 기반 메모리 모듈을 추가해 sequence-level 문맥을 주입.
- 학습은 supervised finetuning 만 수행, 사전학습은 변경하지 않아 기존 VLM backbone 에 쉽게 적용 가능합니다.
한계·조건
- 검증 범위 — supervised finetuning 환경에서만 실험, 사전학습 단계에서의 효과는 미확인.
- 데이터 — 실험에 사용된 데이터셋 규모와 구성이 논문에 명시되지 않아 재현성 평가가 어렵습니다.
- 코드 — 프로젝트 페이지는 있지만 코드 공개 여부는 아직 불명확합니다.
편집자 한 줄
시각 인코더에 상태를 주입한다는 발상 자체는 단순하지만, 실제 태스크에서 특화 모델을 따라잡은 점이 인상적입니다. 다만 finetuning 전용이라는 제약이 있어, 차기 연구에서 사전학습 단계 통합이 가능할지 지켜볼 만합니다.
- #vision-language-model
- #stateful-encoder
- #cross-image
- #vlm
Voio Inc