Papers·1개월 전

AnisoAlign: 이방성 모달리티 갭 정렬로 텍스트 전용 MLLM 학습 — 7B 모델에서 2.3% 성능 향상

모달리티 갭이 단순한 전역 이동이 아니라 소수의 주된 방향에 집중된 이방성 잔차 구조라는 점을 발견하고, 이를 교정하는 AnisoAlign 프레임워크를 제안했습니다. 타겟 모달리티의 내부 기하학적 사전을 활용해 소스 표현을 제한적으로 교정함으로써, 정렬되지 않은 데이터로도 멀티모달 학습이 가능함을 보였습니다. 텍스트 전용 MLLM 학습에서 7B 모델 기준 2.3% 성능 향상을 확인했으며, 코드는 공개되지 않았습니다.

#multimodal
#modality-gap
#representation-alignment
#mllm
#huggingface

Xiaomin Yu

원문 보기 →

AnisoAlign: 이방성 모달리티 갭 정렬로 텍스트 전용 MLLM 학습 — 7B 모델에서 2.3% 성능 향상

Comments