Papers·3개월 전

DataPRM: 환경 인식 프로세스 보상 모델로 데이터 분석 에이전트 오류 탐지 — ScienceAgentBench 7.21%↑

Ant Group 연구진이 데이터 분석 작업에서 LLM 에이전트의 추론을 개선하는 환경 인식 프로세스 보상 모델 DataPRM을 제안했습니다. 기존 PRM이 데이터 분석에서 침묵 오류(silent error)를 탐지하지 못하고 탐색적 행동을 잘못 패널티하는 문제를 해결하기 위해, DataPRM은 환경과 자율 상호작용하며 중간 실행 상태를 확인하고, 반영 기반 삼진 보상 전략(reflection-aware ternary reward)으로 수정 가능한 오류와 회복 불가능한 실수를 구분합니다. 8K 이상의 고품질 훈련 데이터를 구축해 4B 파라미터로도 강력한 기준선을 능가했으며, Best-of-N 추론에서 ScienceAgentBench 7.21%, DABStep 11.28% 성능 향상을 보였습니다. 단, 데이터 생성 파이프라인이 복잡하고 재현에 상당한 자원이 필요할 수 있습니다.

#process-reward-model
#data-analysis
#ant-group
#llm-agent
#reinforcement-learning

Ant Group

원문 보기 →

DataPRM: 환경 인식 프로세스 보상 모델로 데이터 분석 에이전트 오류 탐지 — ScienceAgentBench 7.21%↑

Comments