← Back to feed
Papers·어제

RUC, 자율 연구 프레임워크 Arbor 공개 — 6개 태스크에서 Codex·Claude Code 대비 2.5x 이상 개선

RUC, 자율 연구 프레임워크 Arbor 공개 — 6개 태스크에서 Codex·Claude Code 대비 2.5x 이상 개선

RUC NLPIR Lab이 자율 연구 프레임워크 Arbor를 발표했습니다. 장기 코디네이터와 단기 실행기, 가설 트리(HTR)를 결합해 연구 루프를 자동화한 점이 핵심입니다. 모델 학습, 엔지니어링, 데이터 합성 등 6개 실제 연구 태스크에서 평균 2.5x 이상의 상대적 개선을 보였고, MLE-Bench Lite에서 GPT-5.5 기반 86.36% Any Medal을 기록했습니다. 다만 모든 태스크가 단일 시드 실험이라는 점은 재현성 확인이 필요해 보입니다.

RUC NLPIR Lab이 자율 연구 프레임워크 Arbor를 공개했습니다. 장기 코디네이터와 단기 실행기, 가설 트리(HTR)를 결합해 연구 루프를 자동화한 점이 핵심입니다.

핵심 결론

  • 벤치모델 학습, 엔지니어링, 데이터 합성 등 6개 실제 연구 태스크에서 평균 2.5x 이상의 상대적 개선을 기록했습니다.
  • MLE-BenchGPT-5.5 기반 MLE-Bench Lite에서 86.36% Any Medal을 달성, 비교 대상 중 최고 성능입니다.

방법

  • 아키텍처장기 코디네이터가 전략을 관리하고, 단기 실행기가 개별 가설을 격리된 작업트리에서 테스트합니다.
  • 가설 트리HTR(Hypothesis Tree Refinement)은 가설, 산출물, 증거, 통찰을 시간에 걸쳐 연결하는 지속적 트리 구조입니다.
  • 결과가 반환되면 트리를 업데이트하고 재사용 가능한 교훈을 전파하며 검증된 개선을 통합합니다.

한계·조건

  • 재현성모든 태스크가 단일 시드 실험으로 보고되어, 통계적 유의성 확인이 필요합니다.
  • 리소스GPT-5.5 API 비용이 상당할 것으로 예상되며, 구체적인 토큰 사용량은 공개되지 않았습니다.
  • 코드현재 코드는 공개되지 않았으며, Hugging Face Papers에 abstract만 게재된 상태입니다.

편집자 한 줄

자율 연구 프레임워크의 방향성은 흥미롭지만, 단일 시드 결과만으로는 일반화를 판단하기 어렵습니다. 후속 연구에서 다중 시드와 오픈소스 코드가 공개되면 더 신뢰할 수 있을 듯합니다.

  • #autonomous-research
  • #ruc
  • #hypothesis-tree
  • #gpt-5.5
NLPIR Lab @ RUC
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —