使用GPQA、ARC-Challenge、BIG-Bench Hard和Humanity's Last Exam分数对AI模型的推理能力进行排名。
GPT-4o
评分: 96.4
36.5
所有排名模型
25
有基准测试数据
| # | 模型 | 评分 |
|---|---|---|
| 1 | GPT-4oOpenAI | 96.4 |
| 2 | GPT-4o-miniOpenAI | 96.4 |
| 3 | Llama 3.1 70B InstructMeta | 94.8 |
| 4 | Gemma 2 27BGoogle | 93.2 |
| 5 | Phi 4Microsoft | 47.6 |
| 6 | GPT-5.4OpenAI | 39 |
| 7 | Claude Opus 4.6Anthropic | 38.2 |
| 8 | GPT-5.2OpenAI | 37 |
| 9 | Gemini 2.5 ProGoogle | 35.2 |
| 10 | GPT-5OpenAI | 35 |
| 11 | Claude Opus 4.5Anthropic | 32.1 |
| 12 | Qwen2.5 72B InstructAlibaba | 31.7 |
| 13 | Claude Sonnet 4.6Anthropic | 30.5 |
| 14 | o3OpenAI | 30.1 |
| 15 | Claude Opus 4Anthropic | 28.5 |
| 16 | Qwen2.5 Coder 32B InstructAlibaba | 26.2 |
| 17 | o3 MiniOpenAI | 20.3 |
| 18 | Gemma 2 9BGoogle | 18.4 |
| 19 | Command R7B (12-2024)Cohere | 17.2 |
| 20 | Qwen2.5 7B InstructAlibaba | 15.3 |
| 21 | Llama 3.1 8B InstructMeta | 15.2 |
| 22 | Qwen2.5 Coder 7B InstructAlibaba | 13.5 |
| 23 | Llama 3.2 3B InstructMeta | 12.2 |
| 24 | Llama 3 8B InstructMeta | 7.5 |
| 25 | QwQ 32BAlibaba | 1.9 |
每个模型的评分是其可用基准测试结果的加权平均值。当模型缺少某些基准测试时,权重会在可用的基准测试之间重新归一化。 所有评分均为0-100的刻度。数据来源于官方模型卡片、已发表论文和第三方评估平台。
根据我们的基准测试分析,OpenAI的GPT-4o目前在Reasoning领域排名第一,加权评分为96.4/100。
模型使用GPQA、ARC-Challenge、BIG-Bench Hard、Humanity's Last Exam基准测试分数的加权平均进行排名。所有分数均归一化到0-100的刻度。
我们目前对25个拥有相关基准测试数据的模型进行了Reasoning任务排名。