Papers·1개월 전

MLLM 비정상 환경 추론 정렬 — APO 프레임워크로 7B 모델이 전문 모델 능력 상회

Xiaoyu Yang 연구진은 비정상 환경에서 여러 MLLM의 추론 분포가 불규칙하게 변하며 표적 모델로 편향이 전이되는 문제를 지적하고, 이를 개념 드리프트 이론 기반 제약 만족 문제로 정식화했습니다. 제안한 Autonomous Preference Optimization (APO)은 소스 모델 간 차이를 동적 음성 제약으로 간주, 지도 부트스트래핑으로 능력 합집합에 투영한 후 다중 음성 Plackett-Luce 목적으로 일관된 합의 매니폴드를 합성합니다. 흉부 X-ray 해석 실험에서 7B 모델이 전문 소스 모델의 평균 정확도를 능가하는 강건성을 보였으며, 7개 대규모 MLLM의 170,982개 추론 궤적을 포함한 CXR-MAX 벤치마크도 공개했습니다. 단, 이 결과는 의료 영상이라는 특정 도메인에 국한되며, 일반 도메인에서의 일반화 가능성은 추가 검증이 필요합니다.

#multimodal
#alignment
#concept-drift
#medical-imaging
#mllm

Xiaoyu Yang

원문 보기 →

MLLM 비정상 환경 추론 정렬 — APO 프레임워크로 7B 모델이 전문 모델 능력 상회

Comments