Papers·4일 전
Apple, 다중 목표 RL로 이미지 캡션 품질 개선 — DCScore +13.6, CaptionQA +9.0

Apple 연구진이 이미지 캡션의 유틸리티, 참조 정확도, 언어 품질을 동시에 최적화하는 다중 목표 RL 프레임워크를 제안했습니다. 기존 RL 방식이 한 가지 측면(예: 다운스트림 QA)에 치우쳐 환각이나 과장된 캡션을 유발하는 문제를 해결하기 위해, GDPO 스타일의 보상 분리 정규화와 길이 조건부 마스킹을 도입했습니다. LLaVA-1.5-7B 및 Qwen2.5-VL 3B/7B 모델에서 DCScore +13.6, CaptionQA +9.0, CapArena +29.0의 최대 향상을 보였으나, 학습 비용이 기존 GRPO 대비 다소 증가한다는 한계가 있습니다.
- #image-captioning
- #reinforcement-learning
- #apple
- #multimodal
Apple