Papers·1개월 전

HKUST, 스스로 기술을 확장하는 데이터 과학 에이전트 EvoDS — 4개 벤치마크 평균 28.9% 향상

HKUST(광저우) 팀이 자율적으로 스킬을 습득하고 컨텍스트를 압축하는 데이터 과학 에이전트 EvoDS를 공개했습니다. ASA 메커니즘으로 실행 가능한 스킬을 합성·검증·재사용하고, ACC 전략으로 컨텍스트 관리를 학습 문제로 전환한 점이 핵심입니다. 4개 벤치마크에서 기존 오픈소스 대비 평균 28.9% 성능 향상을 보였고, 토큰 초과 실패(out-of-token)가 완전히 제거되었습니다. 코드와 데이터는 GitHub에 공개되었습니다.

HKUST(광저우) 팀이 자율적으로 스킬을 확장하고 컨텍스트를 적응적으로 관리하는 데이터 과학 에이전트 EvoDS를 발표했습니다.

핵심 결론

성능 — 4개 데이터 과학 벤치마크(DS-1000, BDC, etc.)에서 기존 오픈소스 에이전트 대비 평균 28.9% 향상.
안정성 — out-of-token 실패가 0으로 제거되어 긴 파이프라인에서도 동작합니다.

방법

ASA — Autonomous Skill Acquisition: 에이전트가 코드 스킬을 합성·검증·저장했다가 재사용, 경험을 누적합니다.
ACC — Adaptive Context Compression: 컨텍스트 관리를 강화학습으로 제어, 수동 truncation 대신 중요 정보를 유지합니다.
학습 — 2단계 멀티에이전트 강화학습으로 ASA와 ACC를 공동 최적화, 계층적 설계가 도구 선택 오류를 줄임을 이론적으로 증명했습니다.

한계·조건

환경 — 벤치마크는 데이터 과학 태스크(코드 생성, 시각화, 머신러닝)에 한정, 일반 에이전트 벤치마크로의 일반화는 추가 검증이 필요합니다.
리소스 — 강화학습 기반 훈련 비용이 상당할 것으로 예상되나, 추론 시에는 추가 오버헤드가 거의 없다고 합니다.
코드 — GitHub에 코드와 데이터가 공개되어 재현 가능합니다.

편집자 한 줄

스킬을 동적으로 확장하는 접근은 LLM 에이전트의 실용성을 한 단계 끌어올릴 만한 아이디어네요.

#llm-agent
#data-science
#reinforcement-learning
#hkust

Hong Kong University of Science and Technology(GuangZhou)

원문 보기 →

HKUST, 스스로 기술을 확장하는 데이터 과학 에이전트 EvoDS — 4개 벤치마크 평균 28.9% 향상

핵심 결론

방법

한계·조건

Comments