Papers·1개월 전

NJU-LINK, 딥리서치 에이전트의 오류 위치를 스팬 단위로 찾는 DRIFT 공개 — TELBench 벤치마크도 함께

NJU-LINK Lab이 딥리서치 에이전트의 추론 궤적에서 오류가 발생한 스팬을 정확히 찾아내는 프레임워크 DRIFT를 제안했습니다. 2,790개 실제 궤적을 분석해 만든 TELBench 벤치마크에서 DRIFT는 스팬 수준 오류 위치 정확도를 최대 30%p 개선했습니다. 다만 LLM-assisted 주석에 의존한 데이터라는 점에서 재현성에 주의가 필요합니다.

NJU-LINK Lab이 딥리서치 에이전트의 오류를 스팬 단위로 찾는 DRIFT 프레임워크와 TELBench 벤치마크를 공개했습니다.

핵심 결론

태스크 — 딥리서치 에이전트 궤적 내 오류 스팬 위치 식별 — 기존 최종 답변 평가 대신 과정 수준 분석.
성능 — DRIFT가 스팬 수준 오류 위치 정확도와 첫 오류 정확도를 최대 30%p 향상.
데이터 — 2,790개 실제 궤적, 3개 벤치마크, 2개 에이전트 프레임워크, 3개 백본 모델 포함.

방법

DRIFT — 클레임 중심 감사 프레임워크 — 에이전트의 주장을 추적하고, 궤적 증거와의 일치 여부를 확인해 오류 스팬을 표시.
TELBench — 1,000개 인스턴스 벤치마크 — LLM-assisted 전문가 검토로 오류 스팬 주석.
원시 로그를 의미 스팬으로 변환하고, 정상 탐색, 실패 검색, 잠정 가설, 무해한 노이즈 중에서 유해한 오류 스팬을 식별합니다.

한계·조건

주석 의존 — LLM-assisted 전문가 검토에 의존한 데이터로, 완전 자동화된 파이프라인이 아닙니다.
벤치 규모 — 1,000개 인스턴스로 제한적이며, 다양한 도메인으로의 일반화는 추가 검증이 필요합니다.
코드 — 현재 코드 및 데이터 공개 여부는 명시되지 않았습니다.

편집자 한 줄

과정 수준의 신뢰성 평가는 최종 답변만 보는 기존 방식보다 훨씬 유용해 보이네요. 다만 주석 비용이 만만치 않을 듯합니다.

#deep-research
#error-localization
#agent
#nju-link

NJU-LINK Lab

원문 보기 →

NJU-LINK, 딥리서치 에이전트의 오류 위치를 스팬 단위로 찾는 DRIFT 공개 — TELBench 벤치마크도 함께

핵심 결론

방법

한계·조건

Comments