Papers·2주 전
Google, 멀티모달 임베딩 모델 Gemini Embedding 2 공개 — MSCOCO R@1 62.9, MTEB Code 84.0

Google이 Gemini 기반의 네이티브 멀티모달 임베딩 모델 Gemini Embedding 2를 공개했습니다. 비디오·오디오·이미지·텍스트를 단일 표현 공간으로 임베딩하며, 대규모 대비 학습과 멀티태스크 멀티스테이지 훈련을 통해 MSCOCO R@1 62.9, Vatex NDCG@10 68.8, MTEB 다국어 69.9, MTEB Code 84.0 등 다양한 벤치마크에서 전용 모델을 능가하는 성능을 달성했습니다. 특히 천문학·바이오사이언스·미술·요리 등 전문 도메인에서도 제로샷 성능이 우수하다는 점이 인상적입니다.
Google이 Gemini의 멀티모달 능력을 활용해 비디오·오디오·이미지·텍스트를 통합 임베딩하는 Gemini Embedding 2를 발표했습니다.
핵심 결론
- 벤치마크 — MSCOCO R@1 62.9, Vatex NDCG@10 68.8, MTEB 다국어 69.9, MTEB Code 84.0으로 전용 모델 대비 우위.
- 도메인 — 천문학·바이오사이언스·미술·요리 등 전문 분야에서도 제로샷 성능이 높아 범용성 있음.
방법
- 멀티모달 — 비디오·오디오·이미지·텍스트를 네이티브로 임베딩하며, 이들을 섞은 입력도 단일 표현으로 변환.
- 훈련 — 대규모 대비 학습을 멀티태스크·멀티스테이지로 구성해 일반화 성능을 높임.
한계·조건
- 공개 — 논문은 공개되었으나 모델 가중치 및 API 사용 조건은 아직 상세히 공개되지 않음.
- 규모 — Gemini 기반으로 추론 비용이 높을 가능성이 있으며, 경량화 버전은 별도로 보고되지 않음.
편집자 한 줄
멀티모달 임베딩을 하나의 모델로 통합한 점은 RAG·검색·추천에 실용적이지만, 실제 서비스에 적용할 때의 지연시간과 비용은 추가 확인이 필요합니다.
- #multimodal
- #embedding
- #gemini
- #retrieval
Google