最佳编程AI模型

使用SWE-bench Verified、HumanEval和BigCodeBench评分对AI模型的编程能力进行排名。未进行基准测试的模型使用Arena Elo回退。

Last updated: 17m ago

第一名模型

Claude Opus 4.6

评分: 83.9

平均评分

57.5

所有排名模型

已排名模型

112

有基准测试数据

权重：SWE-bench Verified (40%)HumanEval (30%)BigCodeBench (30%)备选： Arena Elo

Top Best for Coding Models by Weighted Score

Top 15 models by weighted score

LMMarketCap.com

Benchmark Breakdown

Per-benchmark scores for top 10 models

SWE-bench Verified

HumanEval

BigCodeBench

LMMarketCap.com

#	模型	提供商	评分	SWE-bench Verified	HumanEval	BigCodeBench	Arena Elo
1	Claude Opus 4.6Anthropic	Anthropic	83.9	83.7	96	72.1	--
2	Claude Sonnet 4.6Anthropic	Anthropic	80.9	79.6	95.2	68.4	--
3	GPT-5.4OpenAI	OpenAI	78.7	80	97.5	--	--
4	Claude Opus 4.5Anthropic	Anthropic	78.3	80.9	95.2	--	--
5	GPT-5.2OpenAI	OpenAI	77.5	78	97	--	--
6	GPT-5.1OpenAI	OpenAI	76.7	76.5	96.8	--	--
7	Claude Sonnet 4.5Anthropic	Anthropic	76.2	77.2	94.5	--	--
8	Claude Fable 5Anthropic	Anthropic	76	95	--	--	--
9	GPT-5OpenAI	OpenAI	75.8	75	96.5	--	--
10	Gemini 3 Flash PreviewGoogle	Google	75.6	78	92	--	--
11	o3OpenAI	OpenAI	74.3	71.7	97	--	--
12	Claude Opus 4Anthropic	Anthropic	73.9	72.5	95	--	--
13	o4 MiniOpenAI	OpenAI	71.7	68.1	95	--	--
14	GPT-5.5OpenAI	OpenAI	71	88.7	--	--	--
15	GPT-5.5 ProOpenAI	OpenAI	71	88.7	--	--	--
16	Claude Opus 4.8Anthropic	Anthropic	70.9	88.6	--	--	--
17	Claude Opus 4.7Anthropic	Anthropic	70.1	87.6	--	--	--
18	GPT-4o-miniOpenAI	OpenAI	69.8	--	87.2	--	--
19	Claude Haiku 4.5Anthropic	Anthropic	68.9	66.6	89.8	--	--
20	Claude Sonnet 4Anthropic	Anthropic	66.9	72.7	93.8	32.4	--
21	Gemini 2.5 FlashGoogle	Google	65.8	60.4	90	--	--
22	Gemini 3.1 Pro PreviewGoogle	Google	64.5	80.6	--	--	--
23	DeepSeek V4 ProDeepSeek	DeepSeek	64.5	80.6	--	--	--
24	GPT-4 TurboOpenAI	OpenAI	60.9	--	87.1	48.2	--
25	Llama 3.3 70B InstructMeta	Meta	60.9	--	88.4	46.9	--
26	MiniMax M2.5MiniMax	MiniMax	60.6	75.8	--	--	--
27	GPT-4OpenAI	OpenAI	60.5	--	88.4	46	--
28	Gemini 3.5 Flash(回退)Google	Google	60	--	--	--	60
29	GPT-5.2 Chat(回退)OpenAI	OpenAI	60	--	--	--	60
30	GLM 5.1(回退)Zhipu AI	Zhipu AI	60	--	--	--	60
31	MiMo-V2.5-Pro(回退)Xiaomi	Xiaomi	60	--	--	--	60
32	Qwen3.7 Plus(回退)Alibaba	Alibaba	60	--	--	--	60
33	Kimi K2.6(回退)Moonshot AI	Moonshot AI	60	--	--	--	60
34	Qwen3.6 Max Preview(回退)Alibaba	Alibaba	60	--	--	--	60
35	GLM 5(回退)Zhipu AI	Zhipu AI	60	--	--	--	60
36	Gemma 4 31B(回退)Google	Google	60	--	--	--	60
37	Claude Opus 4.1(回退)Anthropic	Anthropic	60	--	--	--	60
38	MiniMax M3(回退)MiniMax	MiniMax	60	--	--	--	60
39	Qwen3.6 Plus(回退)Alibaba	Alibaba	60	--	--	--	60
40	Qwen3.5 397B A17B(回退)Alibaba	Alibaba	60	--	--	--	60
41	Grok 4.3(回退)xAI	xAI	60	--	--	--	60
42	GLM 4.7(回退)Zhipu AI	Zhipu AI	60	--	--	--	60
43	Gemma 4 26B A4B (回退)Google	Google	60	--	--	--	60
44	DeepSeek V4 Flash(回退)DeepSeek	DeepSeek	60	--	--	--	60
45	MiMo-V2.5(回退)Xiaomi	Xiaomi	60	--	--	--	60
46	Gemini 3.1 Flash Lite Preview(回退)Google	Google	60	--	--	--	60
47	Mistral Medium 3.5(回退)Mistral AI	Mistral AI	60	--	--	--	60
48	GPT-5 Chat(回退)OpenAI	OpenAI	60	--	--	--	60
49	GLM 4.6(回退)Zhipu AI	Zhipu AI	60	--	--	--	60
50	DeepSeek V3.2 Exp(回退)DeepSeek	DeepSeek	60	--	--	--	60
51	DeepSeek V3.1(回退)DeepSeek	DeepSeek	60	--	--	--	60
52	Qwen3.5-122B-A10B(回退)Alibaba	Alibaba	60	--	--	--	60
53	MiniMax M2.7(回退)MiniMax	MiniMax	60	--	--	--	60
54	DeepSeek V3.1 Terminus(回退)DeepSeek	DeepSeek	60	--	--	--	60
55	Qwen3 VL 235B A22B Instruct(回退)Alibaba	Alibaba	60	--	--	--	60
56	Hy3 preview(回退)Tencent	Tencent	60	--	--	--	60
57	GLM 4.5(回退)Zhipu AI	Zhipu AI	60	--	--	--	60
58	Qwen3.5-27B(回退)Alibaba	Alibaba	60	--	--	--	60
59	Qwen3 Next 80B A3B Instruct(回退)Alibaba	Alibaba	60	--	--	--	60
60	Qwen3.5-Flash(回退)Alibaba	Alibaba	60	--	--	--	60
61	Qwen3.5-35B-A3B(回退)Alibaba	Alibaba	60	--	--	--	60
62	Qwen3 VL 235B A22B Thinking(回退)Alibaba	Alibaba	60	--	--	--	60
63	Step 3.5 Flash(回退)StepFun	StepFun	60	--	--	--	60
64	GLM 4.6V(回退)Zhipu AI	Zhipu AI	60	--	--	--	60
65	GLM 4.5 Air(回退)Zhipu AI	Zhipu AI	60	--	--	--	60
66	Qwen3 Next 80B A3B Thinking(回退)Alibaba	Alibaba	60	--	--	--	60
67	Trinity Large Thinking(回退)arcee-ai	arcee-ai	60	--	--	--	60
68	GLM 4.7 Flash(回退)Zhipu AI	Zhipu AI	60	--	--	--	60
69	MiniMax M1(回退)MiniMax	MiniMax	60	--	--	--	60
70	o3 Mini High(回退)OpenAI	OpenAI	60	--	--	--	60
71	Command A(回退)Cohere	Cohere	60	--	--	--	60
72	GLM 4.5V(回退)Zhipu AI	Zhipu AI	60	--	--	--	60
73	Qwen3 8B(回退)Alibaba	Alibaba	60	--	--	--	60
74	Mercury 2(回退)Inception	Inception	60	--	--	--	60
75	Llama 3.3 Nemotron Super 49B V1.5(回退)NVIDIA	NVIDIA	60	--	--	--	60
76	Nova 2 Lite(回退)Amazon	Amazon	60	--	--	--	60
77	gpt-oss-20b(回退)OpenAI	OpenAI	60	--	--	--	60
78	Mistral Large 2407(回退)Mistral AI	Mistral AI	60	--	--	--	60
79	Granite 4.1 8B(回退)IBM	IBM	60	--	--	--	60
80	Olmo 3 32B Think(回退)Allen AI	Allen AI	60	--	--	--	60
81	GPT-4.1OpenAI	OpenAI	58.8	54.6	91.5	31.8	--
82	Phi 4Microsoft	Microsoft	57.6	--	82.6	45.5	--
83	Llama 3.1 70B InstructMeta	Meta	57	--	80.5	46.1	--
84	o1OpenAI	OpenAI	57	48.9	92.4	32.4	--
85	DeepSeek V3DeepSeek	DeepSeek	56.6	42	82.6	50	--
86	DeepSeek V3.2DeepSeek	DeepSeek	56	70	--	--	--
87	Gemma 2 27BGoogle	Google	55.6	--	69.5	--	--
88	Mistral LargeMistral AI	Mistral AI	54.9	--	92	30	--
89	GPT-4oOpenAI	OpenAI	54.7	30.8	90.2	51.1	--
90	Claude 3 HaikuAnthropic	Anthropic	52.3	--	76.8	39.4	--
91	DeepSeek V3 0324DeepSeek	DeepSeek	50.5	--	84.5	27.7	--
92	Llama 4 MaverickMeta	Meta	50.2	21	89.5	49.7	--
93	MiniMax M2MiniMax	MiniMax	48.8	61	--	--	--
94	GPT-5 MiniOpenAI	OpenAI	47.8	59.8	--	--	--
95	R1 0528DeepSeek	DeepSeek	46.1	57.6	--	--	--
96	Llama 3.1 8B InstructMeta	Meta	46	--	69.5	32.8	--
97	Gemini 2.5 ProGoogle	Google	44.3	63.8	--	29.7	--
98	Llama 3 8B InstructMeta	Meta	42.1	--	61.6	31.9	--
99	GPT-4o (2024-11-20)OpenAI	OpenAI	38.4	--	--	48	--
100	o3 MiniOpenAI	OpenAI	38.1	49.3	--	33.1	--
101	GPT-4o-mini (2024-07-18)OpenAI	OpenAI	36.9	--	--	46.1	--
102	R1DeepSeek	DeepSeek	36.8	49.2	--	29.7	--
103	GPT-4.1 MiniOpenAI	OpenAI	31.2	23.9	--	48.9	--
104	Llama 4 ScoutMeta	Meta	30.9	9.1	74.1	16.9	--
105	Qwen2.5 7B InstructAlibaba	Alibaba	30.1	--	--	37.6	--
106	Command R+ (08-2024)Cohere	Cohere	29.7	--	--	37.1	--
107	R1 Distill Llama 70BDeepSeek	DeepSeek	28.2	--	--	35.3	--
108	GPT-5 NanoOpenAI	OpenAI	27.8	34.8	--	--	--
109	GPT-4.1 NanoOpenAI	OpenAI	22.7	--	--	28.4	--
110	gpt-oss-120bOpenAI	OpenAI	20.8	26	--	--	--
111	Llama 3.2 3B InstructMeta	Meta	18.7	--	--	23.4	--
112	Llama 3.2 1B InstructMeta	Meta	6.6	--	--	8.2	--