Papers·2주 전
Gensyn, 서로 다른 LLM을 진화 연산자로 활용하는 분산 QD 프레임워크 DEI 공개 — QD-Score 124% 향상

Gensyn 팀이 서로 다른 LLM(GPT-5.4-mini, Claude Sonnet 4.6 등)을 변이 연산자로 활용하는 분산 Quality-Diversity 검색 프레임워크 DEI를 공개했습니다. Core War 도메인에서 단일 노드 대비 QD-Score 124%, 커버리지 28% 향상을 달성했으며, 동일 예산의 동질 앙상블보다도 우수했습니다. 모델 다양성 자체가 성능 향상의 핵심 동인임을 실증한 첫 사례입니다.
Gensyn 팀이 서로 다른 LLM을 변이 연산자로 활용하는 분산 Quality-Diversity 검색 프레임워크 DEI를 공개했습니다.
핵심 결론
- 태스크 — Core War 도메인에서 Redcode warrior 프로그램을 진화시키는 경쟁적 프로그래밍 벤치마크.
- 성능 — 4노드 이종 앙상블(GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2, Claude Haiku 4.5)이 단일 노드 대비 merged-archive QD-Score 124% 향상(45.90 vs 20.46), 커버리지 28% 향상(80.6% vs 63.0%).
- 비교 — 동일 예산의 동질 앙상블보다도 QD-Score, 커버리지, 일반화에서 우수.
방법
- 핵심 아이디어 — 각 LLM의 서로 다른 창의적 편향(creative prior)을 상호 보완적인 행동 다양성 원천으로 활용.
- 분산 구조 — Digital Red Queen 프레임워크를 확장, 각 라운드 종료 시 노드 간 지역 최적 해를 공유해 다음 라운드 모집단 시드.
- 비동기 통신 — non-blocking collective operations으로 피어 노드 간 통신, 확장성 확보.
한계·조건
- 도메인 — Core War라는 특정 경쟁 프로그래밍 도메인에서만 평가됨. 다른 도메인으로의 일반화는 추가 검증 필요.
- 모델 — 사용된 LLM은 GPT-5.4-mini, Claude Sonnet 4.6 등 특정 버전에 국한.
- 예산 — 총 LLM 호출 예산은 동일하게 맞췄으나, 실제 compute 비용은 모델별로 다를 수 있음.
편집자 한 줄
모델 다양성이 단순 병렬화보다 중요하다는 점을 실험적으로 보여준 점이 인상적입니다. 다만 Core War라는 비교적 좁은 도메인에서의 결과라, 실제 다양한 LLM 태스크에 적용될지는 더 지켜봐야겠네요.
- #quality-diversity
- #llm
- #evolutionary-search
- #gensyn
- #distributed
Gensyn