Papers·3개월 전

3D-VCD: First inference-time contrastive decoding for embodied 3D hallucination mitigation

UIUC 연구진이 3D-VCD를 제안, 3D 환경에서 대규모 멀티모달 모델의 환각을 줄이는 최초의 추론 시각 대비 디코딩 프레임워크다. 객체 범주·좌표·크기를 왜곡한 3D 장면 그래프를 생성해 원본과의 예측 차이를 대비함으로써 언어 사전 확률에 의존하는 토큰을 억제한다. 3D-POPE와 HEAL 벤치마크에서 재학습 없이 일관된 성능 향상을 보였으나, 3D 장면 그래프 구축에 의존하므로 그래프 품질에 민감할 수 있다.

#hallucination-mitigation
#contrastive-decoding
#3d-embodied
#uiuc

Perception and LANguage Lab @UIUC

원문 보기 →

3D-VCD: First inference-time contrastive decoding for embodied 3D hallucination mitigation

Comments