使用跨语言MMLU基准测试分数对AI模型的多语言性能进行排名。找到翻译和非英语任务的最佳LLM。
Grok 4.20 Beta
评分: 99.3
79.3
所有排名模型
94
有基准测试数据
每个模型的评分是其可用基准测试结果的加权平均值。当模型缺少某些基准测试时,权重会在可用的基准测试之间重新归一化。 所有评分均为0-100的刻度。数据来源于官方模型卡片、已发表论文和第三方评估平台。
根据我们的基准测试分析,xAI的Grok 4.20 Beta目前在Multilingual领域排名第一,加权评分为99.3/100。
模型使用MMLU、Arena Elo基准测试分数的加权平均进行排名。所有分数均归一化到0-100的刻度。
我们目前对94个拥有相关基准测试数据的模型进行了Multilingual任务排名。