使用MATH-500、GSM8K和AIME 2024基准测试分数对AI模型的数学推理能力进行排名。
o3
评分: 98
84.3
所有排名模型
37
有基准测试数据
| # | 模型 | 评分 |
|---|---|---|
| 1 | o3OpenAI | 98 |
| 2 | o4 MiniOpenAI | 95.6 |
| 3 | GPT-5.4OpenAI | 95.5 |
| 4 | GPT-5.2OpenAI | 94 |
| 5 | Gemini 2.5 ProGoogle | 93.8 |
| 6 | o3 MiniOpenAI | 93.4 |
| 7 | DeepSeek V3DeepSeek | 93 |
| 8 | GPT-5OpenAI | 92.5 |
| 9 | Grok 4xAI | 92 |
| 10 | DeepSeek V3 0324DeepSeek | 92 |
| 11 | R1 0528DeepSeek | 91.9 |
| 12 | Gemini 2.0 FlashGoogle | 91.5 |
| 13 | o1OpenAI | 90.8 |
| 14 | R1DeepSeek | 89.8 |
| 15 | Gemini 3 Flash PreviewGoogle | 88 |
| 16 | Claude 3.5 SonnetAnthropic | 86.1 |
| 17 | Gemini 2.5 FlashGoogle | 85.8 |
| 18 | Gemma 2 27BGoogle | 85.3 |
| 19 | Claude Opus 4.6Anthropic | 85.1 |
| 20 | GPT-4oOpenAI | 84.8 |
| 21 | GPT-4 TurboOpenAI | 81.9 |
| 22 | Claude Opus 4.5Anthropic | 81.2 |
| 23 | Llama 4 MaverickMeta | 81 |
| 24 | Phi 4Microsoft | 80.4 |
| 25 | GPT-4o-miniOpenAI | 80.1 |
| 26 | Llama 3.1 70B InstructMeta | 79.6 |
| 27 | GPT-4.1OpenAI | 78.5 |
| 28 | Claude Opus 4Anthropic | 78.3 |
| 29 | Llama 3.3 70B InstructMeta | 77 |
| 30 | Claude Sonnet 4.6Anthropic | 76.6 |
| 31 | Mistral LargeMistral AI | 76 |
| 32 | Claude Sonnet 4.5Anthropic | 73.1 |
| 33 | Claude Haiku 4.5Anthropic | 72.5 |
| 34 | Grok 3xAI | 72.1 |
| 35 | Claude Sonnet 4Anthropic | 71.4 |
| 36 | Claude 3.7 SonnetAnthropic | 70.5 |
| 37 | Claude 3.5 HaikuAnthropic | 69.2 |
每个模型的评分是其可用基准测试结果的加权平均值。当模型缺少某些基准测试时,权重会在可用的基准测试之间重新归一化。 所有评分均为0-100的刻度。数据来源于官方模型卡片、已发表论文和第三方评估平台。
根据我们的基准测试分析,OpenAI的o3目前在Math领域排名第一,加权评分为98/100。
模型使用MATH-500、GSM8K、AIME 2024基准测试分数的加权平均进行排名。所有分数均归一化到0-100的刻度。
我们目前对37个拥有相关基准测试数据的模型进行了Math任务排名。