← Back to feed
Papers·3일 전

SCOPE: 데이터 없이도 개방형 태스크를 학습하는 자기 대결 프레임워크 — 7B 모델 8개 벤치마크 +10.4점

SCOPE: 데이터 없이도 개방형 태스크를 학습하는 자기 대결 프레임워크 — 7B 모델 8개 벤치마크 +10.4점

홍콩과기대 연구진이 데이터 없이 개방형 태스크를 학습하는 자기 대결 프레임워크 SCOPE를 제안했습니다. Challenger가 문서 기반 태스크를 생성하고 Solver가 멀티턴 검색으로 답변하며, 초기 모델의 복사본이 rubric을 작성해 채점합니다. Qwen2.5, Qwen3, OLMo-3 7B 모델에서 개방형 태스크 벤치마크 8개 평균 +10.4점, 보유한 단답형 QA 7개에서도 +13.8점을 기록했으며, ~9K 큐레이션 프롬프트로 학습한 GRPO_data와 동등 이상의 성능을 냈습니다. 다만 rubric 생성 품질이 자기 판단의 병목이며, Challenger 공진화가 필요하다는 한계가 있습니다.

홍콩과기대 연구진이 데이터 없이 개방형 태스크를 학습하는 자기 대결 프레임워크 SCOPE를 공개했습니다.

핵심 결론

  • 벤치마크Qwen2.5, Qwen3, OLMo-3 7B 모델에서 개방형 태스크 8개 벤치마크 평균 +10.4점.
  • 일반화보유한 단답형 QA 7개에서도 +13.8점 향상, GRPO_data(9K 큐레이션 프롬프트)와 동등 이상.

방법

  • 이중 정책Challenger가 문서 기반 태스크를 생성하고 Solver가 멀티턴 검색으로 답변합니다.
  • 자기 판단초기 모델의 frozen 복사본이 문서에서 rubric을 작성하고 Solver 응답을 채점합니다.
  • 공진화Challenger와 Solver를 함께 진화시켜 태스크가 Solver의 경계 근처에 유지되도록 합니다.

한계·조건

  • 병목Rubric 생성 품질이 자기 판단의 핵심 병목이며, 개선 여지가 큽니다.
  • 리소스멀티턴 검색과 자기 판단으로 인해 학습 비용이 GRPO보다 높을 수 있습니다.
  • 코드논문에는 코드 공개 여부가 명시되지 않았습니다.

편집자 한 줄

데이터 없이 개방형 태스크를 학습한다는 점이 인상적이지만, rubric 생성 품질이 성능 상한을 결정하므로 후속 연구에서 이 부분을 어떻게 개선할지 지켜볼 만합니다.

  • #self-play
  • #open-ended
  • #language-model
  • #hkust
  • #scope
Wai-Chung Kwan
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —