Papers·1개월 전

Google, LLM에 '수면' 단계 도입 — 지식 증류와 꿈꾸기로 지속 학습

Google 연구팀이 LLM이 단기 기억을 장기 파라미터로 전이하는 'Sleep' 패러다임을 제안했습니다. Memory Consolidation 단계에서 작은 모델의 지식을 큰 모델로 증류(Knowledge Seeding)하고, Dreaming 단계에서 강화학습으로 합성 데이터를 생성해 자가 개선합니다. 장기 과제, 지속 학습, 지식 통합, few-shot 일반화에서 성능 향상을 확인했습니다.

Google 연구팀이 인간의 수면 과정에서 착안해 LLM이 단기 기억을 장기 지식으로 전환하는 'Sleep' 패러다임을 공개했습니다.

핵심 결론

태스크 — 장기 과제, 지속 학습, 지식 통합, few-shot 일반화에서 Sleep 단계 도입 시 성능 향상.
방식 — Knowledge Seeding(작은 모델 → 큰 모델 증류) + Dreaming(RL 기반 합성 데이터 자가 개선)의 2단계.

방법

Memory Consolidation — Knowledge Seeding: 작은 모델(self)의 지식을 큰 모델로 증류. on-policy distillation과 RL 기반 imitation learning을 결합한 Generalized Distillation 사용.
Dreaming — 모델이 RL로 합성 데이터 커리큘럼을 생성해 새로운 지식을 복습하고 기존 능력을 개선. 사람 감독 없이 자가 개선.

한계·조건

실험 — long-horizon, continual learning, knowledge incorporation, few-shot generalization 태스크에서 검증.
재현성 — 구체적인 모델 크기, 데이터셋, compute 요구량은 abstract에 명시되지 않았습니다.

편집자 한 줄

수면 단계를 모방한 학습 패러다임이라는 점이 흥미롭지만, 실제 학습 비용과 Dreaming 단계의 수렴 안정성은 추가 확인이 필요해 보입니다.

#continual-learning
#knowledge-distillation
#reinforcement-learning
#google

Google

원문 보기 →

Google, LLM에 '수면' 단계 도입 — 지식 증류와 꿈꾸기로 지속 학습

핵심 결론

방법

한계·조건

Comments