Papers·1개월 전

Google, 진화 탐색 에이전트에 강화학습 적용한 PACEvolve++ — 수렴 속도 2배 이상

Google 팀이 진화 탐색(evolutionary search) 에이전트의 테스트 시 정책 적응을 위한 강화학습 프레임워크 PACEvolve++를 제안했습니다. 기존의 고정된 프롬프트 기반 정책 대신, 학습 가능한 advisor 모델이 탐색 전략을 동적으로 생성·선택하고, 강력한 frontier 모델이 이를 실행 후보로 변환합니다. advisor는 진화 단계에 따라 보상 신호를 달리하는 phase-adaptive 학습을 통해 부트스트래핑과 미세 조정을 균형 있게 수행합니다. 전문가-병렬 로드 밸런싱, 순차 추천, 단백질 적합도 외삽 등 세 가지 벤치마크에서 기존 SOTA 대비 더 빠른 수렴과 안정적인 테스트 시 학습을 보였습니다. 다만 advisor 모델 자체 학습 비용이 추가로 든다는 점은 고려해야 합니다.

#evolutionary-search
#reinforcement-learning
#google
#llm

Google

원문 보기 →

Google, 진화 탐색 에이전트에 강화학습 적용한 PACEvolve++ — 수렴 속도 2배 이상

Comments