Papers·6일 전

자율주행 VLM, 리마와 NYC OOD 환경에서 인간과 답변 차이 — VQA 벤치마크 분석

Artificio 팀이 자율주행 VLM의 OOD 일반화 성능을 리마와 NYC 대시캠 영상 기반 VQA로 평가한 결과, 인간은 출신지와 무관하게 유사한 답변을 보인 반면 VLM은 질문 유형에 따라 인간과 다른 패턴을 보였습니다. 지리적 요인보다는 OOD 특성 자체가 답변 차이를 주도한 점이 흥미로운 포인트네요. 데이터셋은 공개되었으나, 실제 자율주행 Action 모델과의 연결은 후속 연구가 필요합니다.

리마와 NYC 대시캠 영상으로 VLM의 OOD 일반화 능력을 인간과 비교한 연구입니다.

핵심 결론

태스크 — 리마와 NYC 대시캠 영상에 대해 Factual, Ratings, Counterfactual, Reasoning 4개 범주 VQA 수행.
결과 — 인간은 출신지(리마/NYC)와 무관하게 유사한 답변을 보였으나, VLM은 인간과 유의미한 차이를 보였습니다.
지리적 요인보다는 OOD 환경 자체가 답변 차이를 주도했으며, 질문 유형에 따라 차이 폭이 달라졌습니다.

방법

데이터 — 리마와 NYC에서 수집한 대시캠 영상 기반 VQA 데이터셋을 구축, 각 도시별 인간 운전자와 VLM 응답을 비교.
질문 구성 — Factual(객관적 사실), Ratings(평가), Counterfactual(반사실), Reasoning(추론) 4개 범주로 설계.
VLM은 GPT-4V 등 멀티모달 모델을 사용했으며, 인간 평가자는 각 도시 현지 운전자로 구성되었습니다.

한계·조건

범위 — VQA 태스크에 국한되며, 실제 자율주행 Action 모델과의 연결은 분석하지 않았습니다.
데이터 — 데이터셋은 공개되었으나, 두 도시만 포함되어 더 다양한 지리적 OOD 일반화는 추가 연구 필요.
VLM 응답의 정확성보다는 인간과의 차이 패턴에 초점을 맞춘 탐색적 분석입니다.

편집자 한 줄

OOD 환경에서 VLM과 인간의 인식 차이를 체계적으로 비교한 점은 의미 있지만, 실제 자율주행 안전성으로 직결되려면 Action 모델 연동 실험이 필요해 보입니다.

#vlm
#autonomous-driving
#ood
#vqa
#artificio

Artificio

원문 보기 →

자율주행 VLM, 리마와 NYC OOD 환경에서 인간과 답변 차이 — VQA 벤치마크 분석

핵심 결론

방법

한계·조건

Comments