News·4일 전
GLM 5.2, 텍스트 어드벤처 성능 비교 — Gemini 3 Flash 대비 15% 낮아

GLM 5.2 오픈웨이트 모델이 텍스트 어드벤처 게임에서 Gemini 3 Flash 대비 15% 적은 성과를 기록했습니다. 동일한 예산($0.15/시도)으로 5개 게임 17회 시도한 결과, GLM 5.2는 Gemini 3 Flash보다 0.8 표준편차 정도 낮은 성능을 보였으나 Gemini 2.5 Flash보다는 우수했습니다. GLM 5.2의 출력 토큰당 가격은 $4.4/M로 Gemini 3 Flash($3/M)보다 비쌉니다.
GLM 5.2의 텍스트 어드벤처 능력을 Gemini 3 Flash와 비교한 벤치마크 결과가 나왔습니다.
골자
- 비교 대상 — GLM 5.2 (오픈웨이트) vs Gemini 3 Flash, 5개 게임 17회 시도.
- 예산 — 시도당 $0.15 고정, 총 $5.1 사용.
- 결과 — GLM 5.2는 Gemini 3 Flash 대비 15% 적은 성과, 통계적 유의 수준.
배경·맥락
- 노이즈 수준 — 15% 차이는 잔차 표준편차의 약 0.8배로, Gemini 2.5 Flash(1.6배)보다는 나은 편.
- 가격 — GLM 5.2 출력 토큰당 $4.4/M, Gemini 3 Flash는 $3/M.
비고
- Sonnet 4.5와 GPT 5.2는 예산 제약으로 인해 각각 2.5배, 3배 더 나쁜 성능을 보였습니다.
편집자 한 줄
예산 제약이 성능 비교에 큰 영향을 미친 점을 감안하면, GLM 5.2는 가격 대비 괜찮은 선택지일 수 있습니다.
- #glm-5-2
- #benchmark
- #text-adventure
- #open-weights
- #llm-comparison
LessWrong