Papers·6일 전
Meta, 인간 중심 비전 모델 Sapiens2 공개 — 1B~5B 파라미터, 4K 해상도, 포즈·세그멘테이션·노멀 추정 SOTA

Meta의 Sapiens2는 0.4B~5B 파라미터 규모의 고해상도 트랜스포머로, 인간 중심 비전 태스크에서 SOTA를 달성했습니다. 마스크드 이미지 재구성과 자기증류 대조 학습을 결합한 통합 사전학습 목표를 사용해 저수준 디테일과 고수준 의미를 모두 포착하며, 10억 장의 큐레이션된 인간 이미지로 사전학습했습니다. 4K 모델은 윈도우드 어텐션을 채택해 긴 공간 맥락을 처리하며, 포즈 추정(+4 mAP), 신체 부위 세그멘테이션(+24.3 mIoU), 노멀 추정(각도 오차 45.6% 감소) 등에서 1세대 대비 큰 개선을 보였습니다. 코드와 모델이 공개되었습니다.
- #human-centric-vision
- #transformer
- #meta
- #pose-estimation
- #segmentation
AI at Meta