Papers·1개월 전

Penn, 신경망 대칭성에 맞춘 옵티마이저 — Adam 대비 검증 손실 일관 개선

Pennsylvania 대학 연구팀이 신경망 가중치 블록의 대칭군에 대해 equivariant 한 gradient update 원칙을 제시하고, 이를 적용한 layerwise 옵티마이저 스택을 공개했습니다. 기존 Adam은 coordinate-wise 방식이라 대칭성을 무시하는 반면, 제안 방식은 embedding, SwiGLU MLP, MoE router 등 다양한 계층에 맞춰 one-sided spectral, row-norm, hybrid update 등을 설계했습니다. Qwen3-0.6B, Gemma 3 1B, OLMoE-1B-7B 등 여러 아키텍처에서 AdamW 대비 검증 손실이 일관되게 낮아졌고, 일부 실험에서는 학습 안정성도 개선되었습니다. 다만 코드 공개 여부는 아직 확인되지 않았습니다.

#optimizer
#equivariance
#symmetry
#penn

University of Pennsylvania

원문 보기 →

Penn, 신경망 대칭성에 맞춘 옵티마이저 — Adam 대비 검증 손실 일관 개선

Comments