使用GPQA、ARC-Challenge、BIG-Bench Hard和Humanity's Last Exam分数对AI模型的推理能力进行排名。
GPT-4o
评分: 76.5
47.4
所有排名模型
47
有基准测试数据
Top Best for Reasoning Models by Weighted Score
Top 15 models by weighted score
Benchmark Breakdown
Per-benchmark scores for top 10 models
每个模型的评分是其可用基准测试结果的加权平均值。当模型缺少某些基准测试时,权重会在可用的基准测试之间重新归一化。 所有评分均为0-100的刻度。数据来源于官方模型卡片、已发表论文和第三方评估平台。
根据我们的基准测试分析,OpenAI的GPT-4o目前在Reasoning领域排名第一,加权评分为76.5/100。
模型使用GPQA、ARC-Challenge、BIG-Bench Hard、Humanity's Last Exam基准测试分数的加权平均进行排名。所有分数均归一化到0-100的刻度。
我们目前对47个拥有相关基准测试数据的模型进行了Reasoning任务排名。