Papers·2개월 전

Gensyn, 서로 다른 LLM을 진화 연산자로 활용하는 분산 QD 프레임워크 DEI 공개 — QD-Score 124% 향상

Gensyn 팀이 서로 다른 LLM(GPT-5.4-mini, Claude Sonnet 4.6 등)을 변이 연산자로 활용하는 분산 Quality-Diversity 검색 프레임워크 DEI를 공개했습니다. Core War 도메인에서 단일 노드 대비 QD-Score 124%, 커버리지 28% 향상을 달성했으며, 동일 예산의 동질 앙상블보다도 우수했습니다. 모델 다양성 자체가 성능 향상의 핵심 동인임을 실증한 첫 사례입니다.

Gensyn 팀이 서로 다른 LLM을 변이 연산자로 활용하는 분산 Quality-Diversity 검색 프레임워크 DEI를 공개했습니다.

핵심 결론

태스크 — Core War 도메인에서 Redcode warrior 프로그램을 진화시키는 경쟁적 프로그래밍 벤치마크.
성능 — 4노드 이종 앙상블(GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2, Claude Haiku 4.5)이 단일 노드 대비 merged-archive QD-Score 124% 향상(45.90 vs 20.46), 커버리지 28% 향상(80.6% vs 63.0%).
비교 — 동일 예산의 동질 앙상블보다도 QD-Score, 커버리지, 일반화에서 우수.

방법

핵심 아이디어 — 각 LLM의 서로 다른 창의적 편향(creative prior)을 상호 보완적인 행동 다양성 원천으로 활용.
분산 구조 — Digital Red Queen 프레임워크를 확장, 각 라운드 종료 시 노드 간 지역 최적 해를 공유해 다음 라운드 모집단 시드.
비동기 통신 — non-blocking collective operations으로 피어 노드 간 통신, 확장성 확보.

한계·조건

도메인 — Core War라는 특정 경쟁 프로그래밍 도메인에서만 평가됨. 다른 도메인으로의 일반화는 추가 검증 필요.
모델 — 사용된 LLM은 GPT-5.4-mini, Claude Sonnet 4.6 등 특정 버전에 국한.
예산 — 총 LLM 호출 예산은 동일하게 맞췄으나, 실제 compute 비용은 모델별로 다를 수 있음.

편집자 한 줄

모델 다양성이 단순 병렬화보다 중요하다는 점을 실험적으로 보여준 점이 인상적입니다. 다만 Core War라는 비교적 좁은 도메인에서의 결과라, 실제 다양한 LLM 태스크에 적용될지는 더 지켜봐야겠네요.

#quality-diversity
#llm
#evolutionary-search
#gensyn
#distributed

Gensyn

원문 보기 →

Gensyn, 서로 다른 LLM을 진화 연산자로 활용하는 분산 QD 프레임워크 DEI 공개 — QD-Score 124% 향상

핵심 결론

방법

한계·조건

Comments