Papers·1개월 전

IDEA-XL, SGRPO 공개 — 분자 생성에서 utility-diversity Pareto frontier 확장

IDEA-XL 팀이 Supergroup Relative Policy Optimization (SGRPO)을 제안했습니다. 기존 reward feedback 기반 분자 생성기는 utility 최적화에 치우쳐 다양성을 잃기 쉬운데, SGRPO는 set-level diversity를 직접 reward로 구성해 utility-diversity Pareto frontier를 확장합니다. 각 조건에서 후보 집합의 supergroup을 샘플링해 다양성을 비교하고, leave-one-out 기여도로 개별 rollout에 보상을 분배하는 방식입니다. de novo 소분자, pocket 기반 소분자, 단백질 디자인 태스크에서 GRPO 및 Coupled-GRPO와 결합해 평가했으며, decoding sweep에서 기존 대비 frontier-level metric이 가장 우수했습니다. 단, 작은 group size에서도 효과적이지만, generator나 diversity metric에 따라 성능 차이가 있을 수 있습니다. 코드는 공개되었습니다.

#sgrpo
#molecule-generation
#diversity
#reward-optimization
#idea-xl

IDEA-XL

원문 보기 →

IDEA-XL, SGRPO 공개 — 분자 생성에서 utility-diversity Pareto frontier 확장

Comments