Papers·3일 전
VaaWIT: Web 이미지 번역을 위한 이중 스트림 어텐션 및 시각 어댑터 — 8개 태스크에서 SOTA 오픈소스 대비 우위

VaaWIT는 Web 이미지 내 텍스트 번역을 위한 end-to-end 프레임워크로, 8개 태스크에서 기존 오픈소스 LVLM들을 크게 앞지르고 독점 모델과 견줄 만한 성능을 냈습니다. 핵심은 두 가지: (1) Dual-Stream Attention Module(DSAM)이 다국어 의미 특징과 세밀한 시각 표현 간 양방향 상호작용을 가능하게 하고, (2) Visual-Aware Adapter(VAA)가 동결된 LLM 백본에 시각 단서를 파라미터 효율적으로 주입합니다. 다만 세 가지 공개 벤치마크에 국한된 평가이며, 실제 다양한 Web 레이아웃에서의 일반화는 추가 검증이 필요해 보입니다.
- #web-image-translation
- #lvlms
- #visual-adapter
- #multilingual
- #huggingface
Bo Li