Leaderboard
외부 벤치마크 통합 · 한 줄 코멘트는 사이트 큐레이션
- #1Claude Opus 4.71566Anthropic·200K ctx
코딩·에이전트 1순위. 비싸도 일관성·도구사용에서 격차. 고볼륨엔 4.6 으로 내려갈 것.
- #2Claude Sonnet 4.61527Anthropic·200K ctx
4.7 의 80% 성능에 1/5 가격. 일반 백엔드 LLM 디폴트 자리.
- —Claude Haiku 4.5—Anthropic·200K ctx
비용 민감 챗봇·간단 분류용. 추론 깊이 필요한 작업엔 비추.
- —DeepSeek V3.5—DeepSeek·open
MIT 라이선스에 GPT-5 급 코딩. self-host 인프라 있으면 ROI 게임 끝.
- —Gemini 2.5 Flash—Google DeepMind
거의 무료에 가까운 단가. 분류·라우팅 같은 하부 task 용.
- —Gemini 2.5 Pro—Google DeepMind
2M 컨텍스트 갑. 긴 문서·코드베이스 통째로 던질 때만 ROI 정당화.
- —GPT-5—OpenAI
종합 만능. UI/UX 와 도구 생태계 최강. 단가는 고정 비싸다.
- —GPT-5 mini—OpenAI
Sonnet 4.6 의 가성비 경쟁자. 한국어 자연도는 Anthropic 보다 살짝 떨어짐.
- —Grok 4—xAI
실시간 X 데이터 접근 + 검열 적은 톤. 일반 업무 자동화엔 비추.
- —Llama 4 70B—Meta AI·open
open-weight 베이스라인. 그대로 쓰지 말고 fine-tune 시작점으로.
- —Mistral Large 2—Mistral AI
EU 데이터·온프레미스 요건 있을 때. 점수만 보면 후순위.
- —Solar 1.5 Pro—Upstage
한국어·국내 결제 둘 다 됨. 글로벌 SOTA 와 격차 있어 use case 한정.
| # | Model | Provider | Score | Context | Note |
|---|---|---|---|---|---|
| #1 | Claude Opus 4.7 | Anthropic | 1566 | 200K | 코딩·에이전트 1순위. 비싸도 일관성·도구사용에서 격차. 고볼륨엔 4.6 으로 내려갈 것. |
| #2 | Claude Sonnet 4.6 | Anthropic | 1527 | 200K | 4.7 의 80% 성능에 1/5 가격. 일반 백엔드 LLM 디폴트 자리. |
| — | Claude Haiku 4.5 | Anthropic | — | 200K | 비용 민감 챗봇·간단 분류용. 추론 깊이 필요한 작업엔 비추. |
| — | DeepSeek V3.5open | DeepSeek | — | — | MIT 라이선스에 GPT-5 급 코딩. self-host 인프라 있으면 ROI 게임 끝. |
| — | Gemini 2.5 Flash | Google DeepMind | — | — | 거의 무료에 가까운 단가. 분류·라우팅 같은 하부 task 용. |
| — | Gemini 2.5 Pro | Google DeepMind | — | — | 2M 컨텍스트 갑. 긴 문서·코드베이스 통째로 던질 때만 ROI 정당화. |
| — | GPT-5 | OpenAI | — | — | 종합 만능. UI/UX 와 도구 생태계 최강. 단가는 고정 비싸다. |
| — | GPT-5 mini | OpenAI | — | — | Sonnet 4.6 의 가성비 경쟁자. 한국어 자연도는 Anthropic 보다 살짝 떨어짐. |
| — | Grok 4 | xAI | — | — | 실시간 X 데이터 접근 + 검열 적은 톤. 일반 업무 자동화엔 비추. |
| — | Llama 4 70Bopen | Meta AI | — | — | open-weight 베이스라인. 그대로 쓰지 말고 fine-tune 시작점으로. |
| — | Mistral Large 2 | Mistral AI | — | — | EU 데이터·온프레미스 요건 있을 때. 점수만 보면 후순위. |
| — | Solar 1.5 Pro | Upstage | — | — | 한국어·국내 결제 둘 다 됨. 글로벌 SOTA 와 격차 있어 use case 한정. |
데이터: Chatbot Arena (Coding) · 원본