Papers·1개월 전

KAIST, MLLM 평가자의 시각 편향을 잡는 GRPO 기반 훈련 프레임워크 — 벤치마크 일관성 22% 개선

KAIST 팀이 멀티모달 LLM이 자동 평가자로 쓰일 때 시각 정보보다 텍스트 서사에 끌리는 Perceptual Judgment Bias를 체계적으로 분석하고, 이 편향을 교정하는 훈련 프레임워크를 제안했습니다. 최소 편집된 반사실적 응답 데이터셋(PPJD)을 구축하고, GRPO 기반 보상과 batch-ranking 목표를 결합해 정답 텍스트에 대한 의존도를 낮췄습니다. MLLM-as-a-Judge 벤치마크에서 지각 충실도와 순위 일관성이 각각 22%, 18% 향상되었으나, 훈련 데이터 규모가 10K 샘플로 작아 더 큰 스케일에서의 일반화는 추가 검증이 필요합니다.

KAIST 연구팀이 멀티모달 LLM 평가자의 시각 편향을 분석하고, GRPO 기반 훈련으로 이를 교정하는 프레임워크를 공개했습니다.

핵심 결론

문제 — MLLM 평가자가 시각 증거와 텍스트 단서가 충돌할 때, 지각적으로 옳은 답보다 그럴듯한 서사를 보상하는 Perceptual Judgment Bias를 발견.
개선폭 — MLLM-as-a-Judge 벤치마크에서 지각 충실도 22%, 순위 일관성 18% 향상, 인간 평가와의 정렬도 15% 개선.

방법

데이터셋 — Perceptually Perturbed Judgment Dataset(PPJD): 원본 응답에 최소 편집을 가해 지각 오류를 분리한 반사실적 응답 쌍을 구축.
훈련 — GRPO 기반 보상 함수로 지각 충실도를 직접 최적화하고, batch-ranking 목표를 추가해 명시적 쌍 비교 없이 전역 순서를 학습.
기존 RLHF 방식과 달리 pairwise label 없이도 일관된 순위를 배울 수 있다는 점이 흥미로운 포인트네요.

한계·조건

데이터 규모 — PPJD는 10K 샘플로 구성되어, 더 큰 규모에서의 일반화는 추가 실험이 필요.
벤치마크 — 평가는 주로 VQA와 이미지 캡셔닝 기반 벤치마크에 국한되어, 복잡한 추론 태스크에서의 효과는 미검증.
코드 — 데이터셋과 훈련 코드는 공개 예정 — 현재는 논문과 Hugging Face 페이지에서 abstract만 확인 가능.

편집자 한 줄

시각 편향을 데이터와 보상 설계로 해결한 점은 깔끔하지만, 10K 샘플이면 충분한지 좀 더 지켜볼 필요가 있겠네요.

#multimodal
#llm-as-judge
#grpo
#kaist
#perceptual-bias

KAIST AI

원문 보기 →

KAIST, MLLM 평가자의 시각 편향을 잡는 GRPO 기반 훈련 프레임워크 — 벤치마크 일관성 22% 개선

핵심 결론

방법

한계·조건

Comments