← Back to feed
News·4일 전

GLM 5.2, 텍스트 어드벤처 성능 비교 — Gemini 3 Flash 대비 15% 낮아

GLM 5.2, 텍스트 어드벤처 성능 비교 — Gemini 3 Flash 대비 15% 낮아

GLM 5.2 오픈웨이트 모델이 텍스트 어드벤처 게임에서 Gemini 3 Flash 대비 15% 적은 성과를 기록했습니다. 동일한 예산($0.15/시도)으로 5개 게임 17회 시도한 결과, GLM 5.2는 Gemini 3 Flash보다 0.8 표준편차 정도 낮은 성능을 보였으나 Gemini 2.5 Flash보다는 우수했습니다. GLM 5.2의 출력 토큰당 가격은 $4.4/M로 Gemini 3 Flash($3/M)보다 비쌉니다.

GLM 5.2의 텍스트 어드벤처 능력을 Gemini 3 Flash와 비교한 벤치마크 결과가 나왔습니다.

골자

  • 비교 대상GLM 5.2 (오픈웨이트) vs Gemini 3 Flash, 5개 게임 17회 시도.
  • 예산시도당 $0.15 고정, 총 $5.1 사용.
  • 결과GLM 5.2는 Gemini 3 Flash 대비 15% 적은 성과, 통계적 유의 수준.

배경·맥락

  • 노이즈 수준15% 차이는 잔차 표준편차의 약 0.8배로, Gemini 2.5 Flash(1.6배)보다는 나은 편.
  • 가격GLM 5.2 출력 토큰당 $4.4/M, Gemini 3 Flash는 $3/M.

비고

  • Sonnet 4.5와 GPT 5.2는 예산 제약으로 인해 각각 2.5배, 3배 더 나쁜 성능을 보였습니다.

편집자 한 줄

예산 제약이 성능 비교에 큰 영향을 미친 점을 감안하면, GLM 5.2는 가격 대비 괜찮은 선택지일 수 있습니다.

  • #glm-5-2
  • #benchmark
  • #text-adventure
  • #open-weights
  • #llm-comparison
LessWrong
원문 보기 →

Comments

— 첫 댓글을 남겨보세요 —