News·4일 전

GLM 5.2, 텍스트 어드벤처 성능 비교 — Gemini 3 Flash 대비 15% 낮아

GLM 5.2 오픈웨이트 모델이 텍스트 어드벤처 게임에서 Gemini 3 Flash 대비 15% 적은 성과를 기록했습니다. 동일한 예산($0.15/시도)으로 5개 게임 17회 시도한 결과, GLM 5.2는 Gemini 3 Flash보다 0.8 표준편차 정도 낮은 성능을 보였으나 Gemini 2.5 Flash보다는 우수했습니다. GLM 5.2의 출력 토큰당 가격은 $4.4/M로 Gemini 3 Flash($3/M)보다 비쌉니다.

GLM 5.2의 텍스트 어드벤처 능력을 Gemini 3 Flash와 비교한 벤치마크 결과가 나왔습니다.

골자

비교 대상 — GLM 5.2 (오픈웨이트) vs Gemini 3 Flash, 5개 게임 17회 시도.
예산 — 시도당 $0.15 고정, 총 $5.1 사용.
결과 — GLM 5.2는 Gemini 3 Flash 대비 15% 적은 성과, 통계적 유의 수준.

배경·맥락

노이즈 수준 — 15% 차이는 잔차 표준편차의 약 0.8배로, Gemini 2.5 Flash(1.6배)보다는 나은 편.
가격 — GLM 5.2 출력 토큰당 $4.4/M, Gemini 3 Flash는 $3/M.

비고

Sonnet 4.5와 GPT 5.2는 예산 제약으로 인해 각각 2.5배, 3배 더 나쁜 성능을 보였습니다.

편집자 한 줄

예산 제약이 성능 비교에 큰 영향을 미친 점을 감안하면, GLM 5.2는 가격 대비 괜찮은 선택지일 수 있습니다.

#glm-5-2
#benchmark
#text-adventure
#open-weights
#llm-comparison

LessWrong

원문 보기 →

GLM 5.2, 텍스트 어드벤처 성능 비교 — Gemini 3 Flash 대비 15% 낮아

골자

배경·맥락

비고

Comments