Papers·2일 전
Google, rubric 기반 강화학습 RubricEM으로 장문 리서치 에이전트 학습 — 8B 모델로 오픈 모델 중 최고

Google 팀이 rubric을 단순 평가 도구가 아닌 정책 실행·판단·메모리를 연결하는 인터페이스로 삼아, 장문 리서치 에이전트를 학습하는 RubricEM 프레임워크를 제안했습니다. 연구 궤적을 단계별로 분해하고 Stage-Structured GRPO로 단계별 rubric 판단을 밀집 보상으로 활용하며, 반영 메타 정책을 통해 과거 궤적을 재사용 가능한 경험으로 증류합니다. RubricEM-8B는 네 가지 장문 리서치 벤치마크에서 오픈 모델 중 가장 높은 성능을 보였고, 일부 폐쇄형 딥 리서치 시스템에 근접했습니다. 다만 8B 모델 기준이며, 대규모 모델로의 확장성은 추가 검증이 필요합니다.
- #reinforcement-learning
- #rubric
- #deep-research
- #agent
Google