Papers·2일 전
NJU-LINK Lab, 텍스트-비주얼 혼합 보고서 생성 벤치마크 TVIR 공개 — 100개 태스크, 계층적 멀티에이전트 프레임워크

NJU-LINK Lab이 텍스트와 비주얼이 혼합된 딥 리서치 보고서 생성을 위한 벤치마크 TVIR-Bench와 베이스라인 에이전트 TVIR-Agent를 공개했습니다. 100개의 전문가 큐레이션 태스크로 구성되며, 텍스트 평가와 비주얼 평가를 결합한 이중 평가 프레임워크를 제안합니다. TVIR-Agent는 계층적 멀티에이전트 구조로 개요 작성, 이미지 검색, 소스 추적 가능한 차트 생성, 컨텍스트 인식 글쓰기를 수행합니다.
NJU-LINK Lab이 텍스트와 비주얼이 혼합된 딥 리서치 보고서 생성을 위한 벤치마크와 베이스라인 에이전트를 제안했습니다.
핵심 결론
- 벤치마크 — TVIR-Bench는 100개의 전문가 큐레이션 멀티모달 딥 리서치 태스크로, 각 태스크는 특정 분석 목표를 위해 비주얼 요소를 요구합니다.
- 평가 — 텍스트 평가와 비주얼 평가를 결합한 이중 경로 평가 프레임워크를 도입했습니다.
방법
- 아키텍처 — TVIR-Agent는 계층적 멀티에이전트 프레임워크로, 개요 작성, 이미지 검색, 소스 추적 가능한 차트 생성, 컨텍스트 인식 순차적 글쓰기를 수행합니다.
- 특징 — 비주얼 요소가 사실적으로 신뢰할 수 있고 분석과 잘 정렬되도록 설계되었습니다.
한계·조건
- 실험 — 9개의 딥 리서치 시스템을 대상으로 한 실험에서 TVIR-Agent가 전반적으로 강력한 성능을 보였습니다.
- 범위 — 벤치마크는 100개 태스크로 제한되며, 더 다양한 도메인으로의 확장이 필요할 수 있습니다.
편집자 한 줄
멀티모달 딥 리서치 평가의 부재를 메우는 실용적인 벤치마크라는 점에서 의미가 있습니다.
- #deep-research
- #multimodal
- #report-generation
- #benchmark
- #nju-link
NJU-LINK Lab