← Back to feed
Papers·어제

Mela: 인간 뇌의 기억 통합 원리를 모방한 계층형 메모리 모듈 — 4K 학습 길이 대비 32K까지 성능 유지

Mela: 인간 뇌의 기억 통합 원리를 모방한 계층형 메모리 모듈 — 4K 학습 길이 대비 32K까지 성능 유지

뇌의 기억 통합(memory consolidation) 원리에서 영감을 받아, 서로 다른 업데이트 주파수로 동작하는 두 개의 서브모듈로 구성된 Hierarchical Memory Module(HMM)을 제안했습니다. 저주파 서브모듈은 추상적인 개괄 지식을, 고주파 서브모듈은 풍부한 일화적 세부 정보를 포착하며, 문맥에 따라 동적으로 재구성됩니다. HMM을 Transformer 기반 언어 디코더에 통합한 Mela 모델군은 모든 크기에서 Transformer 베이스라인을 능가했으며, 4K로 사전학습된 컨텍스트 길이를 고정한 상태에서도 32K까지 성능 저하 없이 추론 가능했습니다. 단, ablation 결과가 특정 설정에 민감할 수 있어 실용적 구성 시 추가 검증이 필요합니다.

Musubi

Comments

— 첫 댓글을 남겨보세요 —