Papers·4일 전
Fudan, LLM 명령 수행 능력 스스로 진화시키는 SEIF 공개 — 다양한 모델에서 일관된 성능 향상

Fudan 대학 팀이 LLM의 명령 수행 능력을 외부 감독 없이 스스로 진화시키는 프레임워크 SEIF를 제안했습니다. Instructor가 난이도를 점진적으로 높인 명령을 생성하고, Follower가 이를 학습하며, Judger가 RL 신호를 제공하는 4개 역할이 순환하며 모델과 명령 난이도를 함께 진화시킵니다. 다양한 모델 크기와 아키텍처에서 일관된 성능 향상을 보였으며, 초기 충분한 학습 후 후반부 과적합을 방지하는 전략이 효과적임을 확인했습니다. 코드와 데이터는 공개되었습니다.
- #instruction-following
- #self-evolution
- #reinforcement-learning
- #fudan
Fudan University