使用IFEval基准测试对AI模型的指令遵循准确性进行排名。
Claude 3.7 Sonnet
评分: 92.3
77.2
所有排名模型
24
有基准测试数据
| # | 模型 | 评分 |
|---|---|---|
| 1 | Claude 3.7 SonnetAnthropic | 92.3 |
| 2 | Llama 3.3 70B InstructMeta | 92.1 |
| 3 | Claude Sonnet 4Anthropic | 90.8 |
| 4 | DeepSeek V3 0324DeepSeek | 89 |
| 5 | GPT-4.1OpenAI | 88.2 |
| 6 | Claude 3.5 SonnetAnthropic | 88.1 |
| 7 | Llama 4 MaverickMeta | 88 |
| 8 | DeepSeek V3DeepSeek | 87.1 |
| 9 | Mistral LargeMistral AI | 86.5 |
| 10 | o1OpenAI | 86.5 |
| 11 | Qwen2.5 72B InstructAlibaba | 86.4 |
| 12 | GPT-4oOpenAI | 84.3 |
| 13 | Llama 3.1 70B InstructMeta | 83.6 |
| 14 | GPT-4o-miniOpenAI | 80.4 |
| 15 | Phi 4Microsoft | 80.1 |
| 16 | Command R7B (12-2024)Cohere | 77.1 |
| 17 | Qwen2.5 7B InstructAlibaba | 75.9 |
| 18 | Qwen2.5 Coder 32B InstructAlibaba | 72.7 |
| 19 | Llama 3.1 8B InstructMeta | 72.1 |
| 20 | Llama 3.2 3B InstructMeta | 68.5 |
| 21 | Qwen2.5 Coder 7B InstructAlibaba | 61.5 |
| 22 | Gemma 2 9BGoogle | 58.8 |
| 23 | QwQ 32BAlibaba | 39.8 |
| 24 | Llama 3 8B InstructMeta | 24 |
每个模型的评分是其可用基准测试结果的加权平均值。当模型缺少某些基准测试时,权重会在可用的基准测试之间重新归一化。 所有评分均为0-100的刻度。数据来源于官方模型卡片、已发表论文和第三方评估平台。
根据我们的基准测试分析,Anthropic的Claude 3.7 Sonnet目前在Instructions领域排名第一,加权评分为92.3/100。
模型使用IFEval基准测试分数的加权平均进行排名。所有分数均归一化到0-100的刻度。
我们目前对24个拥有相关基准测试数据的模型进行了Instructions任务排名。