最佳数学AI模型

使用MATH-500、GSM8K和AIME 2024基准测试分数对AI模型的数学推理能力进行排名。

Last updated: 49m ago

第一名模型

评分: 88.2

平均评分

72.1

所有排名模型

已排名模型

有基准测试数据

权重：MATH-500 (40%)GSM8K (30%)AIME 2024 (30%)

Top Best for Math Models by Weighted Score

Top 15 models by weighted score

LMMarketCap.com

Benchmark Breakdown

Per-benchmark scores for top 10 models

MATH-500

GSM8K

AIME 2024

LMMarketCap.com

#	模型	提供商	评分	MATH-500	GSM8K	AIME 2024
1	o3OpenAI	OpenAI	88.2	99	--	96.7
2	o4 MiniOpenAI	OpenAI	86.1	97.3	--	93.4
3	Gemini 2.5 ProGoogle	Google	84.4	95.2	--	92
4	o3 MiniOpenAI	OpenAI	84	97.9	--	87.3
5	R1 0528DeepSeek	DeepSeek	82.7	97.8	--	84
6	o1OpenAI	OpenAI	81.7	96.4	--	83.3
7	R1DeepSeek	DeepSeek	80.8	97.3	--	79.8
8	Gemini 2.5 FlashGoogle	Google	78.1	85.8	--	88
9	DeepSeek V3DeepSeek	DeepSeek	76.9	90.2	96.7	39.2
10	Claude Opus 4.6Anthropic	Anthropic	76.6	90.5	--	78
11	GPT-5.4OpenAI	OpenAI	76.4	95.5	--	--
12	GPT-4oOpenAI	OpenAI	76.3	76.6	95.8	--
13	GPT-5.2OpenAI	OpenAI	75.2	94	--	--
14	GPT-5.1OpenAI	OpenAI	74.8	93.5	--	--
15	GPT-5OpenAI	OpenAI	74	92.5	--	--
16	GPT-4 TurboOpenAI	OpenAI	73.7	72.6	94.2	--
17	DeepSeek V3 0324DeepSeek	DeepSeek	73.6	92	--	--
18	Claude Opus 4.5Anthropic	Anthropic	73.1	88.1	--	72
19	GPT-4o-miniOpenAI	OpenAI	72.1	70.2	93.2	--
20	Llama 3.1 70B InstructMeta	Meta	71.7	68	95.1	--
21	Gemma 4 31BGoogle	Google	71.4	--	--	89.2
22	Claude Opus 4Anthropic	Anthropic	70.5	86	--	68
23	Gemini 3 Flash PreviewGoogle	Google	70.4	88	--	--
24	Claude Sonnet 4.6Anthropic	Anthropic	68.9	85.3	--	65
25	Gemma 2 27BGoogle	Google	68.2	--	85.3	--
26	Claude Sonnet 4.5Anthropic	Anthropic	65.8	83	--	60
27	Llama 4 MaverickMeta	Meta	64.8	81	--	--
28	Phi 4Microsoft	Microsoft	64.3	80.4	--	--
29	Claude Sonnet 4Anthropic	Anthropic	64.2	81.4	--	58
30	GPT-4.1OpenAI	OpenAI	62.8	78.5	--	--
31	Llama 3.3 70B InstructMeta	Meta	61.6	77	--	--
32	Mistral LargeMistral AI	Mistral AI	60.8	76	--	--
33	Claude Haiku 4.5Anthropic	Anthropic	58	72.5	--	--
34	Llama 4 ScoutMeta	Meta	40.2	50.3	--	--