Papers·5일 전
RNG-Bench: 과거 관측 재구성 능력을 분리 측정하는 벤치마크 — 128K 토큰·350 이미지에서 MLLM 한계 확인

Intern Large Models 팀이 MLLM의 숨겨진 상태 재구성 능력을 분리 평가하는 RNG-Bench를 공개했습니다. Matching Pairs(카드 위치 기억)와 3D Maze(공간 지도 통합) 두 게임으로 구성되며, 가장 어려운 설정은 128K 토큰·350 이미지 입력을 요구해 현 MLLM이 포화되지 않았습니다. Memory Gap 분석 결과 대부분의 오류는 의사결정보다 이전 관측 망각에서 비롯되며, Qwen3.5-9B를 최적 정책 rollout으로 fine-tuning하면 성능이 향상되고 일반 멀티모달 능력도 유지됩니다.
MLLM이 더 이상 보이지 않는 과거 관측을 재구성하고 행동에 반영하는 능력을 분리 측정하는 벤치마크 RNG-Bench가 나왔습니다.
핵심 결론
- 태스크 — Matching Pairs(카드 짝 맞추기)와 3D Maze(에고뷰→지도 통합) 두 게임.
- 난이도 — 최고 난이도는 128K 토큰·350 이미지 입력 필요, 현 MLLM은 포화되지 않음.
- 분석 — Memory Gap 메트릭으로 분리한 결과, 대부분 오류는 행동 선택보다 이전 관측 망각에서 발생.
방법
- 듀얼 프로토콜 — 인스턴스 분산 통제를 위한 1:1 대결(duel) 프로토콜 도입.
- Memory Gap — 망각과 행동 선택 오류를 분리하는 메트릭으로, 각 게임의 구조를 활용해 측정.
- 파인튜닝 — Qwen3.5-9B를 optimal-policy rollout과 필터링된 모델 시연으로 학습해 RNG-Bench 성능 개선, 기존 벤치마크 전이도 확인.
한계·조건
- 컨텍스트 — 가장 어려운 설정은 128K 토큰·350 이미지로, 현재 MLLM의 컨텍스트 한계를 테스트.
- 코드 — Hugging Face에 공개 예정 (현재 abstract만 열람 가능).
- 범위 — 두 게임으로 제한되며, 더 다양한 시나리오로의 일반화는 추가 연구 필요.
편집자 한 줄
기존 벤치마크가 숨겨진 상태 추론과 다른 능력을 혼동했던 점을 깔끔하게 분리한 설계가 인상적입니다. 128K 토큰이 필요한 설정은 아직 대부분 모델이 버거워할 만한 수준이네요.
- #benchmark
- #multimodal
- #memory
- #internlm
Intern Large Models