Papers·3일 전
OmniClean: 시각 단서 제거한 멀티모달 평가 — 3B 모델이 30B 성능에 근접

StepFun 연구팀이 기존 omni-modal 벤치마크에서 시각 정보만으로도 답할 수 있는 쿼리를 걸러낸 OmniClean 평가셋을 공개했습니다. 16,968개 쿼리 중 8,551개만 남긴 이 세트로 Qwen2.5-Omni-3B 기반 3단계 post-training 레시피(OmniBoost)를 평가한 결과, self-distillation 후 3B 모델이 Qwen3-Omni-30B-A3B-Instruct와 aggregate 성능이 비슷해졌습니다. 다만 이 결과는 시각 누출을 통제한 환경에서만 유효하며, 실제 멀티모달 통합 능력의 진전을 해석하기 쉽게 만든다는 점이 핵심입니다.
- #omni-modal
- #benchmark
- #evaluation
- #stepfun
StepFun