← Back to feed
Papers·2일 전

camroll: 개인 카메라 롤 기반 VQA 데이터셋 및 에이전트 — 50명, 31,476장 이미지, 2,500 QA 쌍

camroll: 개인 카메라 롤 기반 VQA 데이터셋 및 에이전트 — 50명, 31,476장 이미지, 2,500 QA 쌍

개인 카메라 롤(수년간 수백~수천 장)을 대상으로 한 VQA 데이터셋 camroll과 에이전트 camroll-agent를 공개했습니다. camroll은 50명 사용자, 31,476장 이미지, 2,500 QA 쌍으로 구성되며, 단순 사실 질문부터 개방형 추천까지 포함합니다. camroll-agent는 계층적 메모리와 최소 도구 세트로 긴 시계열 개인 시각 메모리를 효율적으로 탐색하며, 기존 장문 맥락 이해 에이전트보다 우수한 성능을 보였습니다. 다만 데이터셋 규모가 작고(50명) 사용자별 이미지 수가 불균등해 일반화에는 한계가 있습니다.

개인 카메라 롤에서 사진을 검색해 질문에 답하는 VQA 에이전트를 위한 데이터셋과 시스템을 제안합니다.

핵심 결론

  • 데이터셋50명 사용자, 31,476장 이미지, 2,500 QA 쌍 — 단순 사실 질문(예: '어제 먹은 음식 이름?')부터 개방형 추천(예: '한 번도 안 먹어본 요리 추천')까지 포함.
  • 성능camroll-agent가 다양한 장문 맥락 이해 에이전트 및 베이스라인보다 높은 정확도를 기록.

방법

  • 계층적 메모리시간·주제별로 이미지를 그룹화한 계층적 메모리 구조로, 긴 시계열 개인 시각 정보를 효율적으로 탐색.
  • 최소 도구검색·필터링·요약 등 최소한의 도구만 제공해 에이전트가 자율적으로 사용.

한계·조건

  • 규모50명 사용자만 포함되어 개인화 패턴의 다양성을 충분히 대표하지 못할 수 있음.
  • 공개데이터셋과 코드는 Hugging Face에 공개 예정.

편집자 한 줄

개인 시각 메모리 영역에서 장문 맥락 추론이 텍스트와 다르게 작동한다는 점을 잘 보여주는 작업입니다.

  • #vqa
  • #personal-memory
  • #dataset
  • #ai-agent
  • #long-context
Thao Nguyen
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —