Papers·2개월 전

OR-Space: 산업 최적화 에이전트 평가를 위한 전 생애주기 워크스페이스 벤치마크

상하이 자오퉁 대학이 산업 최적화 워크플로에서 LLM 에이전트의 신뢰성을 평가하는 벤치마크 OR-Space를 공개했습니다. 기존 벤치마크가 단일 문제 설명에서 수식 또는 코드로의 일회성 변환에 그친 반면, OR-Space는 모델 구축(Build), 수정(Revise), 설명(Explain)의 세 가지 태스크를 지속 가능한 워크스페이스에서 평가합니다. 각 인스턴스는 비즈니스 문서, 구조화 데이터, 코드 아티팩트, 솔버 출력 등이 포함된 실행 가능한 디렉토리로 구성되며, 에이전트는 여러 파일에 걸친 증거를 종합해야 합니다.

상하이 자오퉁 대학 연구진이 산업 최적화(OR) 워크플로 전반에서 LLM 에이전트의 신뢰성을 평가하는 새로운 벤치마크를 제안했습니다.

핵심 결론

벤치마크 — OR-Space는 모델 구축(Build), 수정(Revise), 설명(Explain)의 세 가지 태스크로 구성되며, 각 태스크는 다중 아티팩트 워크스페이스에서 수행됩니다.
차별점 — 기존 벤치마크가 단일 문제 설명에서 수식/코드로의 일회성 변환에 초점을 맞춘 반면, OR-Space는 지속적인 워크스페이스와 다단계 태스크 생애주기를 반영합니다.

방법

워크스페이스 — 각 인스턴스는 비즈니스 문서, 구조화 데이터, 코드 아티팩트, 솔버 출력, 태스크별 평가기가 여러 파일에 분산된 실행 가능한 디렉토리입니다.
Build — 에이전트가 이기종 아티팩트로부터 솔버-레디 최적화 모델을 구축합니다.
Revise — 변경된 요구사항이나 솔버 피드백에 따라 기존 모델을 수정하되, 유효한 이전 로직은 보존해야 합니다.
Explain — 워크스페이스 아티팩트 전반의 증거를 사용하여 솔루션, 제약 조건, 비즈니스 영향에 대한 근거 기반 질문에 답변합니다.

한계·조건

범위 — 벤치마크는 산업 OR 워크플로에 초점을 맞추며, 다른 도메인으로의 일반화는 추가 연구가 필요합니다.
공개 — 현재 논문과 벤치마크 설계가 공개되었으며, 코드와 데이터는 추후 공개 예정입니다.

편집자 한 줄

기존 OR 벤치마크가 놓쳤던 '실제 작업 흐름'을 포착하려는 시도가 인상적입니다. 다만 평가 지표와 베이스라인 결과가 아직 공개되지 않아 실용성은 좀 더 지켜봐야겠네요.

#llm-agents
#operations-research
#benchmark
#shanghai-jiao-tong-university

Shanghai Jiao Tong University

원문 보기 →

OR-Space: 산업 최적화 에이전트 평가를 위한 전 생애주기 워크스페이스 벤치마크

핵심 결론

방법

한계·조건

Comments