Papers·어제
G-Zero: 검증기 없이 LLM 스스로 진화하는 공동진화 프레임워크

G-Zero는 외부 검증기 없이 LLM이 스스로 진화할 수 있는 공동진화 프레임워크입니다. Hint-δ라는 내재적 보상을 통해 Proposer가 Generator의 약점을 공략하는 질문과 힌트를 생성하고, Generator는 DPO로 이를 내재화합니다. 이론적으로 최적화 보장을 증명했으며, 검증 불가능한 영역에서도 확장 가능한 자기 진화 경로를 제시합니다. 다만 실험 결과가 아직 공개되지 않아 실제 성능은 확인이 필요합니다.
- #self-evolution
- #llm
- #co-evolution
- #grpo
- #dpo
Chengsong Huang