← Back to feed
Papers·6일 전

Merck, 생물학 기초 모델에 sigmoid attention 적용 — 6개 단일세포 데이터셋에서 세포 분리도 25% 향상, 학습 10% 가속

Merck, 생물학 기초 모델에 sigmoid attention 적용 — 6개 단일세포 데이터셋에서 세포 분리도 25% 향상, 학습 10% 가속

Merck 연구팀이 생물학 기초 모델의 attention 메커니즘을 softmax에서 sigmoid로 교체하면 표현력, 학습 속도, 안정성 모두 개선된다는 결과를 발표했습니다. 6개 단일세포 데이터셋에서 세포 분리도가 25% 높아지고 검증 손실이 낮아졌으며, 학습 속도는 최대 10% 빨라졌습니다. Sigmoid attention은 전역적으로 유계인 도함수(≤0.25)와 대각 야코비안 구조 덕분에 softmax의 밀집 결합으로 인한 불안정성을 제거합니다. 1억 6천만 파라미터 모델에서 gradient clipping 없이 8K 토큰 시퀀스를 학습할 때 softmax는 그래디언트가 4자릿수 폭발하며 발산한 반면, sigmoid는 안정적으로 유지되었습니다. 또한 TritonSigmoid라는 커스텀 GPU 커널을 공개했는데, H100에서 515 TFLOPS를 달성해 FlashAttention-2와 FlashSigmoid를 능가하며 생물학 시퀀스에 필수적인 패딩 지원을 포함합니다. 한계로는 이 결과가 생물학 도메인에 특화되어 있어 일반 NLP 태스크로의 일반화는 추가 검증이 필요합니다.

Merck & Co., Inc.

Comments

— 첫 댓글을 남겨보세요 —