Papers·1개월 전

IBM, 멀티 에이전트 워크플로우의 경로 수준 환각 평가 — Trajel 데이터셋과 5가지 분류 체계

IBM Research가 멀티 에이전트 워크플로우에서 중간 Thought-Action-Observation 단계의 환각을 평가하는 Trajel 데이터셋과 프레임워크를 공개했습니다. 기존 벤치마크가 최종 출력만 평가하는 한계를 넘어, 사실·참조·논리·절차·범위 기반의 5가지 환각 유형을 정의하고 전문가 주석을 단 AssetOpsBench 에이전트 트레이스를 제공합니다. 실험 결과, 기존 탐지기는 이진 정확도가 높아도 미묘한 유형을 잘못 분류하며, 경로 인식 탐지가 사후 검증보다 우수함을 보였습니다.

IBM Research가 멀티 에이전트 워크플로우의 중간 단계 환각을 체계적으로 평가하는 Trajel 데이터셋을 공개했습니다.

핵심 결론

벤치 — AssetOpsBench 기반 전문가 주석 트레이스에서 5가지 환각 유형 분류 — 기존 벤치마크는 절반 이상의 실패 모드를 놓칩니다.
성능 — 경로 인식 탐지기가 표준 사후 검증보다 유의미하게 우수했으나, 미묘한 유형(범위 기반)은 여전히 오분류됩니다.

방법

분류 체계 — 사실(factual), 참조(referential), 논리(logical), 절차(procedural), 범위(scope-based) 5가지 환각 유형을 정의했습니다.
거의 절반의 환각 경로가 여러 유형을 동시에 포함한다는 점이 흥미로운 포인트네요.

한계·조건

도메인 — 데이터셋은 산업용 자산 관리(AssetOps)에 국한되어 있어 일반화 가능성은 추가 검증이 필요합니다.
코드 — 데이터셋과 평가 코드는 Hugging Face에 공개 예정입니다.

편집자 한 줄

에이전트 워크플로우의 안전성을 높이려면 최종 출력뿐 아니라 중간 추적 경로까지 검증해야 한다는 실용적인 시사점을 주네요.

#hallucination
#multi-agent
#ibm
#evaluation
#workflow

IBM Research

원문 보기 →

IBM, 멀티 에이전트 워크플로우의 경로 수준 환각 평가 — Trajel 데이터셋과 5가지 분류 체계

핵심 결론

방법

한계·조건

Comments