← Back to feed
Papers·5일 전

3D 뇌 MRI 생성을 위한 MAE 기반 토크나이저 — 23개 임상 태스크 중 21개에서 SOTA

3D 뇌 MRI 생성을 위한 MAE 기반 토크나이저 — 23개 임상 태스크 중 21개에서 SOTA

Gevaert Lab이 3D 뇌 MRI latent diffusion을 위한 새로운 토크나이저를 제안했습니다. 기존 재구성 기반 토크나이저는 임상 정보를 유지하지 못하는 문제를 해결하기 위해, 3D MAE 인코더와 CNN 디코더를 분리하여 인코더는 임상적으로 유용한 임베딩을 생성하고 디코더는 복원에 집중하도록 설계했습니다. 18개 공개 코호트(35,309개 볼륨)로 사전학습한 결과, 23개 선형 프로빙 태스크 중 21개에서 SOTA를 달성했으며, 조건부 확산 트랜스포머(DiT)로 여섯 가지 변수에 대한 생성 및 환자별 종단 예측도 가능함을 보였습니다. 단, 3D 볼륨 기반이라 2D 슬라이스 기반 방법보다 계산 비용이 높을 수 있습니다.

Gevaert Lab이 3D 뇌 MRI 생성을 위해 임상 정보를 보존하는 MAE 기반 토크나이저를 공개했습니다.

핵심 결론

  • 벤치23개 선형 프로빙 태스크 중 21개에서 BrainIAC, BrainSegFounder, MedicalNet 등 기존 SOTA를 능가하거나 동등.
  • 생성조건부 DiT로 여섯 가지 임상 변수(질병, 연령, 성별 등)에 따른 생성과 환자별 종단 예측이 가능.

방법

  • 디커플링3D MAE 인코더는 임상 정보를 유지하는 임베딩을, 별도의 CNN 디코더는 voxel 복원을 담당하도록 분리.
  • 사전학습18개 공개 코호트, 4개 모달리티, 10개 질병 범주, 200+ 수집 사이트의 35,309개 볼륨으로 학습.
  • 확산임베딩 공간에서 조건부 DiT를 학습시켜 기존 latent diffusion의 정보 손실 문제를 회피.

한계·조건

  • 계산3D MAE와 DiT 모두 3D 볼륨 기반이라 2D 슬라이스 기반 방법보다 GPU 메모리와 시간 소모가 큼.
  • 재현성코드와 모델 가중치는 아직 공개되지 않았으며, Hugging Face 페이지에 abstract만 게재됨.

편집자 한 줄

인코더-디코더 분리 아이디어는 단순하지만 임상 정보 보존과 생성 품질을 동시에 잡은 점이 인상적입니다. 다만 3D 볼륨 특성상 확장성에서 추가 검증이 필요해 보입니다.

  • #brain-mri
  • #latent-diffusion
  • #mae
  • #tokenizer
  • #gevaert-lab
Gevaert Lab
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —