Papers·3개월 전

Stanford, 논문을 기계 실행 가능한 패키지로 바꾸는 ARA 프로토콜 — QA 정확도 72.4%→93.7%

Stanford 팀이 기존 논문의 서사적 구조가 가진 Storytelling Tax와 Engineering Tax를 해결하기 위해 Agent-Native Research Artifact (ARA) 프로토콜을 제안했습니다. ARA는 과학적 로직, 실행 가능한 코드, 실패를 포함한 탐색 그래프, 모든 주장의 근거 데이터를 계층화한 머신 실행형 패키지로, PaperBench에서 QA 정확도를 72.4%에서 93.7%로, 재현 성공률을 57.4%에서 64.4%로 끌어올렸습니다. 다만 RE-Bench의 개방형 확장 태스크에서는 실패 궤적이 에이전트의 창의성을 제약할 수 있다는 한계도 지적됩니다.

#ara
#agent-native
#reproducibility
#stanford
#paperbench

Stanford University

원문 보기 →

Stanford, 논문을 기계 실행 가능한 패키지로 바꾸는 ARA 프로토콜 — QA 정확도 72.4%→93.7%

Comments