Papers·어제
ReMMD: 다국어·멀티이미지·에이전틱 검증 프레임워크 — GPT-5.2 기준 정확도 41.80%

OpenDataLab 팀이 다국어·멀티이미지 게시물을 대상으로 한 에이전틱 검증 프레임워크 ReMMD를 공개했습니다. 500개 샘플, 2,756장 이미지, 5개 언어, 교차언어 설정, 5단계 진위 레이블을 포함한 ReMMDBench와, 게시물을 원자 단위로 분해해 증거를 재사용하는 ReMMD-Agent로 구성됩니다. GPT-5.2 기반에서 41.80% 정확도·39.12% macro-F1로 기존 대비 최고 성능을 보이면서 비용은 MMD-Agent 대비 17.5%, T2-Agent 대비 79.9% 절감했습니다. 단, 벤치마크 규모가 500샘플로 작고, GPT-5.2 의존도가 높아 재현성에 주의가 필요합니다.
OpenDataLab 팀이 다국어·멀티이미지 환경에 특화된 에이전틱 검증 프레임워크 ReMMD를 제안했습니다.
핵심 결론
- 벤치 — ReMMDBench: 500 샘플, 2,756 이미지, 5개 단일언어 + 2개 교차언어, 3단계 텍스트 길이, 5단계 진위 레이블, 8개 왜곡 레이블, 증거 출처 및 근거 포함.
- 성능 — GPT-5.2 기반 ReMMD-Agent가 5단계 진위 분류에서 41.80% 정확도, 39.12% macro-F1로 기존 시스템(MMD-Agent, T2-Agent, open LVLMs) 중 최고.
- 비용 — 추론 비용은 MMD-Agent 대비 17.5%, T2-Agent 대비 79.9% 감소.
방법
- 에이전트 구조 — ReMMD-Agent는 게시물을 원자적 주장(atomic points)으로 분해하고, 재사용 가능한 증거 집합을 구축한 뒤 L1/L2/L3 구조화 출력을 예측합니다.
- 메모리 — 지속 메모리(persistent memory)를 통해 이전 검증 결과를 증거로 재활용해 중복 검색 비용을 줄입니다.
- 다중 모달 — 텍스트와 이미지를 모두 고려하며, 긴 다국어 서사와 여러 이미지의 정합성을 평가합니다.
한계·조건
- 벤치 규모 — 500 샘플로 비교적 작은 규모이며, 다양한 실제 시나리오를 대표하는지 추가 검증이 필요합니다.
- 모델 의존성 — 최고 성능은 GPT-5.2에서 달성했으며, 오픈 모델로는 성능 격차가 존재합니다.
- 코드 공개 — 프로젝트 페이지(https://dang-ai.github.io/ReMMD)에서 추가 정보를 확인할 수 있습니다.
편집자 한 줄
다국어·멀티이미지 misinformation 검증이라는 실용적인 문제를 잘 정의했고, 에이전틱 접근으로 비용 효율까지 챙긴 점이 인상적입니다. 다만 벤치 규모와 GPT 의존성은 향후 확장이 필요한 부분입니다.
- #misinformation
- #multimodal
- #agentic
- #opendatalab
OpenDataLab