← Back to feed
Papers·4일 전

BioMatrix: 단일 디코더로 분자·단백질·자연어 통합한 최초의 멀티모달 기초 모델

BioMatrix: 단일 디코더로 분자·단백질·자연어 통합한 최초의 멀티모달 기초 모델

Shanghai AI Lab 팀이 BioMatrix를 공개했습니다. 분자 서열(SMILES/SELFIES), 분자 구조, 단백질 서열, 단백질 구조, 자연어를 하나의 공유 이산 토큰 공간으로 통합하여, 외부 인코더나 어댑터 없이 단일 next-token prediction 목표로 모든 모달리티를 생성할 수 있는 최초의 모델입니다. Qwen3(1.7B/4B) 기반으로 3,044억 토큰으로 사전학습 후 80개 태스크 중 77개에서 SOTA 또는 경쟁력 있는 성능을 달성했습니다. 단, 4B 파라미터 기준이라 추론 비용이 작지 않다는 점은 감안해야 합니다.

Shanghai AI Lab이 분자·단백질·자연어를 하나의 디코더로 통합한 최초의 멀티모달 기초 모델 BioMatrix를 발표했습니다.

핵심 결론

  • 벤치80개 태스크(6개 카테고리) 중 77개에서 SOTA 또는 경쟁력 있는 성능 — 단일 모델로 전문화된 접근법을 대부분 능가합니다.
  • 모델Qwen3 1.7B/4B 기반, 3,044억 토큰 사전학습.

방법

  • 통합 토큰화분자 서열(SMILES/SELFIES), 분자 구조, 단백질 서열, 단백질 구조, 자연어를 모두 공유된 이산 토큰 공간으로 매핑.
  • 네이티브 생성외부 인코더, 어댑터, 모달리티별 출력 헤드 없이 단일 next-token prediction 목표로 모든 모달리티를 읽고 생성.
  • 크로스모달 데이터: 분자-단백질 상호작용, 단백질-단백질 상호작용 데이터를 텍스트와 혼합하여 학습.

한계·조건

  • 규모4B 파라미터 기준이라 추론 비용이 작지 않으며, 단일 GPU에서 실시간 추론은 무리일 수 있습니다.
  • 공개현재 Hugging Face에 모델 가중치와 코드가 공개되어 재현 가능합니다.

편집자 한 줄

분자와 단백질을 하나의 아키텍처로 통합한 점은 참신하지만, 4B 규모가 생물학적 실무에서 충분히 실용적일지는 추가 벤치마크가 필요해 보입니다.

  • #multimodal
  • #foundation-model
  • #molecule
  • #protein
  • #shanghai-ai-lab
shanghai ailab
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —