Papers·1개월 전

FashionLens: MLLM 기반 통합 패션 이미지 검색 — 7개 태스크에서 SOTA

Haokun Wen 팀이 다양한 쿼리 형식과 검색 의도를 하나로 처리하는 통합 패션 이미지 검색 프레임워크 FashionLens를 공개했습니다. 기존 접근법이 좁은 태스크에 집중한 데 비해, FashionLens는 Multimodal Large Language Model을 기반으로 Proposal-Guided Spherical Query Calibrator를 통해 쿼리 표현을 태스크별 메트릭 공간으로 동적 변환하고, Gradient-Guided Adaptive Sampling으로 태스크 간 최적화 불균형을 해결합니다. U-FIRE 벤치마크에서 7개 검색 시나리오 전반에 걸쳐 SOTA를 달성했으며, 미보고 태스크에도 강한 일반화를 보였습니다. 데이터와 코드는 공개되었습니다.

#fashion-retrieval
#multimodal-llm
#benchmark
#haokun-wen

Haokun Wen

원문 보기 →

FashionLens: MLLM 기반 통합 패션 이미지 검색 — 7개 태스크에서 SOTA

Comments