Papers·3개월 전

GLM-5V-Turbo: 멀티모달 에이전트를 위한 네이티브 기반 모델

Z.AI가 멀티모달 에이전트를 위한 기반 모델 GLM-5V-Turbo를 발표했습니다. 언어 추론뿐 아니라 이미지, 비디오, 웹페이지, 문서, GUI 등 다양한 맥락을 인지하고 행동할 수 있도록 설계되었으며, 멀티모달 인식을 추론, 계획, 도구 사용, 실행의 핵심 요소로 통합한 점이 특징입니다. 모델 설계, 멀티모달 학습, 강화학습, 도구체인 확장, 에이전트 프레임워크 통합 전반에서 개선이 이루어졌으며, 멀티모달 코딩과 시각적 도구 사용에서 강력한 성능을 보이면서도 텍스트 전용 코딩 능력은 유지했습니다. 다만 학습에 상당한 계산 자원이 필요할 것으로 보입니다.

#multimodal
#agent
#glm
#zai

Z.ai

원문 보기 →

GLM-5V-Turbo: 멀티모달 에이전트를 위한 네이티브 기반 모델

Comments