Best AI Models for Coding

AI models ranked by coding ability using SWE-bench Verified, HumanEval, and BigCodeBench scores. Fallback to Arena Elo for unbenched models.

Last updated: 25m ago

#1 Model

Claude Opus 4.6

Score: 83.9

Average Score

55.8

Across all ranked models

Models Ranked

120

With benchmark data

Weights:SWE-bench Verified (40%)HumanEval (30%)BigCodeBench (30%)Fallback: Arena Elo

Top Best for Coding Models by Weighted Score

Top 15 models by weighted score

LMMarketCap.com

Benchmark Breakdown

Per-benchmark scores for top 10 models

SWE-bench Verified

HumanEval

BigCodeBench

LMMarketCap.com

#	Model	Provider	Score	SWE-bench Verified	HumanEval	BigCodeBench	Arena Elo
1	Claude Opus 4.6Anthropic	Anthropic	83.9	83.7	96	72.1	--
2	Claude Sonnet 4.6Anthropic	Anthropic	80.9	79.6	95.2	68.4	--
3	GPT-5.4OpenAI	OpenAI	78.7	80	97.5	--	--
4	Claude Opus 4.5Anthropic	Anthropic	78.3	80.9	95.2	--	--
5	GPT-5.2OpenAI	OpenAI	77.5	78	97	--	--
6	GPT-5.1OpenAI	OpenAI	76.7	76.5	96.8	--	--
7	Claude Sonnet 4.5Anthropic	Anthropic	76.2	77.2	94.5	--	--
8	GPT-5OpenAI	OpenAI	75.8	75	96.5	--	--
9	Gemini 3 Flash PreviewGoogle	Google	75.6	78	92	--	--
10	o3OpenAI	OpenAI	74.3	71.7	97	--	--
11	Claude Opus 4Anthropic	Anthropic	73.9	72.5	95	--	--
12	Grok 4xAI	xAI	72.8	70	95.5	--	--
13	o4 MiniOpenAI	OpenAI	71.7	68.1	95	--	--
14	GPT-4o-miniOpenAI	OpenAI	69.8	--	87.2	--	--
15	Claude Haiku 4.5Anthropic	Anthropic	68.9	66.6	89.8	--	--
16	Claude Sonnet 4Anthropic	Anthropic	66.9	72.7	93.8	32.4	--
17	Claude 3.7 SonnetAnthropic	Anthropic	65.9	70.3	94	31.8	--
18	Gemini 2.5 FlashGoogle	Google	65.8	60.4	90	--	--
19	GPT-4 TurboOpenAI	OpenAI	60.9	--	87.1	48.2	--
20	Llama 3.3 70B InstructMeta	Meta	60.9	--	88.4	46.9	--
21	MiniMax M2.5MiniMax	MiniMax	60.6	75.8	--	--	--
22	GPT-4OpenAI	OpenAI	60.5	--	88.4	46	--
23	Claude 3.5 HaikuAnthropic	Anthropic	60.4	--	88.1	46.1	--
24	Gemini 3.1 Pro Preview(fallback)Google	Google	60	--	--	--	60
25	Claude Opus 4.7(fallback)Anthropic	Anthropic	60	--	--	--	60
26	GPT-5.2 Chat(fallback)OpenAI	OpenAI	60	--	--	--	60
27	GPT-5.5(fallback)OpenAI	OpenAI	60	--	--	--	60
28	GLM 5.1(fallback)Zhipu AI	Zhipu AI	60	--	--	--	60
29	Grok 4.1 Fast(fallback)xAI	xAI	60	--	--	--	60
30	MiMo-V2.5-Pro(fallback)Xiaomi	Xiaomi	60	--	--	--	60
31	DeepSeek V4 Pro(fallback)DeepSeek	DeepSeek	60	--	--	--	60
32	Kimi K2.6(fallback)Moonshot AI	Moonshot AI	60	--	--	--	60
33	Qwen3.6 Max Preview(fallback)Alibaba	Alibaba	60	--	--	--	60
34	GLM 5(fallback)Zhipu AI	Zhipu AI	60	--	--	--	60
35	Grok 4.3(fallback)xAI	xAI	60	--	--	--	60
36	Gemma 4 31B(fallback)Google	Google	60	--	--	--	60
37	Claude Opus 4.1(fallback)Anthropic	Anthropic	60	--	--	--	60
38	Qwen3.6 Plus(fallback)Alibaba	Alibaba	60	--	--	--	60
39	MiMo-V2-Pro(fallback)Xiaomi	Xiaomi	60	--	--	--	60
40	Qwen3.5 397B A17B(fallback)Alibaba	Alibaba	60	--	--	--	60
41	GLM 4.7(fallback)Zhipu AI	Zhipu AI	60	--	--	--	60
42	Gemini 3.1 Flash Lite Preview(fallback)Google	Google	60	--	--	--	60
43	Gemma 4 26B A4B (fallback)Google	Google	60	--	--	--	60
44	DeepSeek V4 Flash(fallback)DeepSeek	DeepSeek	60	--	--	--	60
45	GPT-5 Chat(fallback)OpenAI	OpenAI	60	--	--	--	60
46	GLM 4.6(fallback)Zhipu AI	Zhipu AI	60	--	--	--	60
47	DeepSeek V3.2(fallback)DeepSeek	DeepSeek	60	--	--	--	60
48	DeepSeek V3.2 Exp(fallback)DeepSeek	DeepSeek	60	--	--	--	60
49	MiMo-V2.5(fallback)Xiaomi	Xiaomi	60	--	--	--	60
50	Grok 4 Fast(fallback)xAI	xAI	60	--	--	--	60
51	Qwen3.5-122B-A10B(fallback)Alibaba	Alibaba	60	--	--	--	60
52	Hy3 preview(fallback)Tencent	Tencent	60	--	--	--	60
53	DeepSeek V3.1(fallback)DeepSeek	DeepSeek	60	--	--	--	60
54	DeepSeek V3.1 Terminus(fallback)DeepSeek	DeepSeek	60	--	--	--	60
55	Qwen3 VL 235B A22B Instruct(fallback)Alibaba	Alibaba	60	--	--	--	60
56	GLM 4.5(fallback)Zhipu AI	Zhipu AI	60	--	--	--	60
57	MiniMax M2.7(fallback)MiniMax	MiniMax	60	--	--	--	60
58	Qwen3.5-27B(fallback)Alibaba	Alibaba	60	--	--	--	60
59	Qwen3 Next 80B A3B Instruct(fallback)Alibaba	Alibaba	60	--	--	--	60
60	Qwen3.5-Flash(fallback)Alibaba	Alibaba	60	--	--	--	60
61	Qwen3.5-35B-A3B(fallback)Alibaba	Alibaba	60	--	--	--	60
62	Qwen3 VL 235B A22B Thinking(fallback)Alibaba	Alibaba	60	--	--	--	60
63	Step 3.5 Flash(fallback)StepFun	StepFun	60	--	--	--	60
64	Claude 3.7 Sonnet (thinking)(fallback)Anthropic	Anthropic	60	--	--	--	60
65	Trinity Large Thinking(fallback)arcee-ai	arcee-ai	60	--	--	--	60
66	GLM 4.6V(fallback)Zhipu AI	Zhipu AI	60	--	--	--	60
67	Trinity Large Preview(fallback)arcee-ai	arcee-ai	60	--	--	--	60
68	GLM 4.5 Air(fallback)Zhipu AI	Zhipu AI	60	--	--	--	60
69	Qwen3 Next 80B A3B Thinking(fallback)Alibaba	Alibaba	60	--	--	--	60
70	GLM 4.7 Flash(fallback)Zhipu AI	Zhipu AI	60	--	--	--	60
71	MiniMax M1(fallback)MiniMax	MiniMax	60	--	--	--	60
72	o3 Mini High(fallback)OpenAI	OpenAI	60	--	--	--	60
73	Grok 3 Mini Beta(fallback)xAI	xAI	60	--	--	--	60
74	Command A(fallback)Cohere	Cohere	60	--	--	--	60
75	GLM 4.5V(fallback)Zhipu AI	Zhipu AI	60	--	--	--	60
76	Qwen3 8B(fallback)Alibaba	Alibaba	60	--	--	--	60
77	Mercury 2(fallback)Inception	Inception	60	--	--	--	60
78	Llama 3.3 Nemotron Super 49B V1.5(fallback)NVIDIA	NVIDIA	60	--	--	--	60
79	Nova 2 Lite(fallback)Amazon	Amazon	60	--	--	--	60
80	gpt-oss-20b(fallback)OpenAI	OpenAI	60	--	--	--	60
81	Mistral Large 2407(fallback)Mistral AI	Mistral AI	60	--	--	--	60
82	Olmo 3 32B Think(fallback)Allen AI	Allen AI	60	--	--	--	60
83	GPT-4.1OpenAI	OpenAI	58.8	54.6	91.5	31.8	--
84	Phi 4Microsoft	Microsoft	57.6	--	82.6	45.5	--
85	Llama 3.1 70B InstructMeta	Meta	57	--	80.5	46.1	--
86	o1OpenAI	OpenAI	57	48.9	92.4	32.4	--
87	DeepSeek V3DeepSeek	DeepSeek	56.6	42	82.6	50	--
88	Gemma 2 27BGoogle	Google	55.6	--	69.5	--	--
89	Mistral LargeMistral AI	Mistral AI	54.9	--	92	30	--
90	GPT-4oOpenAI	OpenAI	54.7	30.8	90.2	51.1	--
91	Llama 3 70B InstructMeta	Meta	54.5	--	77.4	43.6	--
92	Grok 3xAI	xAI	52.9	--	90.5	27	--
93	Claude 3 HaikuAnthropic	Anthropic	52.3	--	76.8	39.4	--
94	DeepSeek V3 0324DeepSeek	DeepSeek	50.5	--	84.5	27.7	--
95	Llama 4 MaverickMeta	Meta	50.2	21	89.5	49.7	--
96	MiniMax M2MiniMax	MiniMax	48.8	61	--	--	--
97	GPT-5 MiniOpenAI	OpenAI	47.8	59.8	--	--	--
98	R1 0528DeepSeek	DeepSeek	46.1	57.6	--	--	--
99	Llama 3.1 8B InstructMeta	Meta	46	--	69.5	32.8	--
100	Gemini 2.0 FlashGoogle	Google	46	13.5	89.4	45.9	--
101	Gemini 2.5 ProGoogle	Google	44.3	63.8	--	29.7	--
102	Llama 3 8B InstructMeta	Meta	42.1	--	61.6	31.9	--
103	GPT-4o (2024-11-20)OpenAI	OpenAI	38.4	--	--	48	--
104	o3 MiniOpenAI	OpenAI	38.1	49.3	--	33.1	--
105	GPT-4o-mini (2024-07-18)OpenAI	OpenAI	36.9	--	--	46.1	--
106	R1DeepSeek	DeepSeek	36.8	49.2	--	29.7	--
107	R1 Distill Qwen 32BDeepSeek	DeepSeek	35.1	--	--	43.9	--
108	GPT-4.1 MiniOpenAI	OpenAI	31.2	23.9	--	48.9	--
109	Llama 4 ScoutMeta	Meta	30.9	9.1	74.1	16.9	--
110	Qwen2.5 7B InstructAlibaba	Alibaba	30.1	--	--	37.6	--
111	Command R (08-2024)Cohere	Cohere	29.7	--	--	37.1	--
112	R1 Distill Llama 70BDeepSeek	DeepSeek	28.2	--	--	35.3	--
113	GPT-5 NanoOpenAI	OpenAI	27.8	34.8	--	--	--
114	Maestro Reasoningarcee-ai	arcee-ai	23.8	--	--	29.7	--
115	GPT-4.1 NanoOpenAI	OpenAI	22.7	--	--	28.4	--
116	gpt-oss-120bOpenAI	OpenAI	20.8	26	--	--	--
117	Grok 3 MinixAI	xAI	18.9	--	--	23.6	--
118	Llama 3.2 3B InstructMeta	Meta	18.7	--	--	23.4	--
119	Gemini 2.0 Flash LiteGoogle	Google	15.7	--	--	19.6	--
120	Llama 3.2 1B InstructMeta	Meta	6.6	--	--	8.2	--

How scores are calculated

Each model's score is a weighted average of its available benchmark results. When a model is missing some benchmarks, the weights are re-normalized across the benchmarks that are available. Models without any primary benchmark data fall back to Arena Elo (normalized to 0-100) and are marked accordingly. All scores are on a 0-100 scale. Data sourced from official model cards, published papers, and third-party evaluation platforms.

Other Specialty Leaderboards

Best for Math Best for Reasoning Best for Writing Best for Instructions Best for Data Analysis Best for Roleplay Best for Multilingual

Frequently Asked Questions

Based on our benchmark analysis, Claude Opus 4.6 by Anthropic is currently the #1 ranked model for coding, with a weighted score of 83.9/100.

Models are ranked using a weighted average of SWE-bench Verified, HumanEval, BigCodeBench benchmark scores. Models without primary benchmark data fall back to Arena Elo. All scores are normalized to a 0-100 scale.

We currently rank 120 models that have relevant benchmark data for coding tasks.