← Back to feed
Papers·어제

ReMMD: 다국어·멀티이미지·에이전틱 검증 프레임워크 — GPT-5.2 기준 정확도 41.80%

ReMMD: 다국어·멀티이미지·에이전틱 검증 프레임워크 — GPT-5.2 기준 정확도 41.80%

OpenDataLab 팀이 다국어·멀티이미지 게시물을 대상으로 한 에이전틱 검증 프레임워크 ReMMD를 공개했습니다. 500개 샘플, 2,756장 이미지, 5개 언어, 교차언어 설정, 5단계 진위 레이블을 포함한 ReMMDBench와, 게시물을 원자 단위로 분해해 증거를 재사용하는 ReMMD-Agent로 구성됩니다. GPT-5.2 기반에서 41.80% 정확도·39.12% macro-F1로 기존 대비 최고 성능을 보이면서 비용은 MMD-Agent 대비 17.5%, T2-Agent 대비 79.9% 절감했습니다. 단, 벤치마크 규모가 500샘플로 작고, GPT-5.2 의존도가 높아 재현성에 주의가 필요합니다.

OpenDataLab 팀이 다국어·멀티이미지 환경에 특화된 에이전틱 검증 프레임워크 ReMMD를 제안했습니다.

핵심 결론

  • 벤치ReMMDBench: 500 샘플, 2,756 이미지, 5개 단일언어 + 2개 교차언어, 3단계 텍스트 길이, 5단계 진위 레이블, 8개 왜곡 레이블, 증거 출처 및 근거 포함.
  • 성능GPT-5.2 기반 ReMMD-Agent가 5단계 진위 분류에서 41.80% 정확도, 39.12% macro-F1로 기존 시스템(MMD-Agent, T2-Agent, open LVLMs) 중 최고.
  • 비용추론 비용은 MMD-Agent 대비 17.5%, T2-Agent 대비 79.9% 감소.

방법

  • 에이전트 구조ReMMD-Agent는 게시물을 원자적 주장(atomic points)으로 분해하고, 재사용 가능한 증거 집합을 구축한 뒤 L1/L2/L3 구조화 출력을 예측합니다.
  • 메모리지속 메모리(persistent memory)를 통해 이전 검증 결과를 증거로 재활용해 중복 검색 비용을 줄입니다.
  • 다중 모달텍스트와 이미지를 모두 고려하며, 긴 다국어 서사와 여러 이미지의 정합성을 평가합니다.

한계·조건

  • 벤치 규모500 샘플로 비교적 작은 규모이며, 다양한 실제 시나리오를 대표하는지 추가 검증이 필요합니다.
  • 모델 의존성최고 성능은 GPT-5.2에서 달성했으며, 오픈 모델로는 성능 격차가 존재합니다.
  • 코드 공개프로젝트 페이지(https://dang-ai.github.io/ReMMD)에서 추가 정보를 확인할 수 있습니다.

편집자 한 줄

다국어·멀티이미지 misinformation 검증이라는 실용적인 문제를 잘 정의했고, 에이전틱 접근으로 비용 효율까지 챙긴 점이 인상적입니다. 다만 벤치 규모와 GPT 의존성은 향후 확장이 필요한 부분입니다.

  • #misinformation
  • #multimodal
  • #agentic
  • #opendatalab
OpenDataLab
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —