Papers·1개월 전

ClaimDiff-RL: 이미지 캡션 RL의 보상 세분화 문제를 해결하는 원자적 클레임 차이 기반 보상

Tianle Li 연구팀이 이미지 캡션 강화학습(RL)에서 발생하는 보상 세분화 문제를 해결하는 ClaimDiff-RL 프레임워크를 제안했습니다. 기존의 전체 시퀀스 단위 보상은 할루시네이션과 정보 누락 간의 균형을 제대로 반영하지 못하는 반면, ClaimDiff-RL은 멀티모달 판별기를 통해 각 시각적 클레임 단위의 오류 유형과 심각도를 측정하여 보상으로 사용합니다. 160개 이미지 진단 벤치마크와 공개 캡션 벤치마크에서 할루시네이션과 누락 간 균형을 개선했으며, Gemini-3-Pro-Preview를 객체 수 세기, 공간 관계, 장면 인식 등 일부 세부 능력에서 능가했습니다. 단, 이 프레임워크는 참조 캡션과 멀티모달 판별기가 필요하므로 계산 비용이 증가한다는 한계가 있습니다.

#reinforcement-learning
#image-captioning
#reward-design
#hallucination
#tianle-li

Tianle Li

원문 보기 →

ClaimDiff-RL: 이미지 캡션 RL의 보상 세분화 문제를 해결하는 원자적 클레임 차이 기반 보상

Comments