最佳多语言AI模型

使用跨语言MMLU基准测试分数对AI模型的多语言性能进行排名。找到翻译和非英语任务的最佳LLM。

Last updated: 2m ago

第一名模型

GPT-5.4

评分: 95.4

平均评分

73.7

所有排名模型

已排名模型

109

有基准测试数据

权重：MMLU (60%)Arena Elo (40%)

Top Best for Multilingual Models by Weighted Score

Top 15 models by weighted score

LMMarketCap.com

Benchmark Breakdown

Per-benchmark scores for top 10 models

MMLU

Arena Elo

LMMarketCap.com

#	模型	提供商	评分	MMLU	Arena Elo
1	GPT-5.4OpenAI	OpenAI	95.4	94	97.5
2	Claude Opus 4.6Anthropic	Anthropic	95.3	92.1	100
3	Gemini 3.1 Pro PreviewGoogle	Google	95.2	92.6	99
4	GPT-5.2OpenAI	OpenAI	94.8	93.5	96.8
5	GPT-5.1OpenAI	OpenAI	94.3	93.2	95.8
6	GPT-5.5OpenAI	OpenAI	93.8	92.4	95.8
7	GPT-5OpenAI	OpenAI	93.5	93	94.2
8	Claude Sonnet 4.6Anthropic	Anthropic	92.1	91.2	93.3
9	Claude Sonnet 4.5Anthropic	Anthropic	91.3	90.8	92
10	Gemini 3 Flash PreviewGoogle	Google	91.1	88	95.7
11	Gemini 2.5 ProGoogle	Google	90.7	90.8	90.7
12	Claude Opus 4.5Anthropic	Anthropic	90.2	91.4	88.3
13	o3OpenAI	OpenAI	89.7	92.3	85.8
14	Claude Opus 4Anthropic	Anthropic	89.3	91	86.7
15	DeepSeek V3.2DeepSeek	DeepSeek	88.1	88.5	87.5
16	R1 0528DeepSeek	DeepSeek	86.9	91.5	80
17	Claude Sonnet 4Anthropic	Anthropic	86.2	89.5	81.2
18	R1DeepSeek	DeepSeek	85.7	90.8	78.2
19	o1OpenAI	OpenAI	85.1	91.8	75
20	Claude Fable 5Anthropic	Anthropic	85	--	100
21	Gemini 2.5 FlashGoogle	Google	84.5	85.8	82.5
22	Claude Opus 4.7Anthropic	Anthropic	83.7	--	98.5
23	o3 MiniOpenAI	OpenAI	83.5	86.9	78.5
24	DeepSeek V3 0324DeepSeek	DeepSeek	83.2	89.2	74.2
25	Claude Opus 4.8Anthropic	Anthropic	82	--	96.5
26	Gemini 3.5 FlashGoogle	Google	81.7	--	96.2
27	GPT-5.2 ChatOpenAI	OpenAI	81.6	--	96
28	GLM 5.1Zhipu AI	Zhipu AI	81.2	--	95.5
29	Llama 4 MaverickMeta	Meta	81.1	88	70.8
30	DeepSeek V3DeepSeek	DeepSeek	81	88.5	69.7
31	MiMo-V2.5-ProXiaomi	Xiaomi	80.2	--	94.3
32	GPT-4.1OpenAI	OpenAI	80.2	89.2	66.7
33	Qwen3.7 PlusAlibaba	Alibaba	79.9	--	94
34	DeepSeek V4 ProDeepSeek	DeepSeek	79.8	--	93.8
35	Kimi K2.6Moonshot AI	Moonshot AI	79.5	--	93.5
36	Qwen3.6 Max PreviewAlibaba	Alibaba	79.3	--	93.3
37	GLM 5Zhipu AI	Zhipu AI	79.1	--	93
38	GPT-4oOpenAI	OpenAI	79	88.7	64.3
39	GPT-5.5 ProOpenAI	OpenAI	78.5	92.4	--
40	Gemma 4 31BGoogle	Google	78.1	--	91.8
41	Claude Opus 4.1Anthropic	Anthropic	77.8	--	91.5
42	MiniMax M3MiniMax	MiniMax	77.5	--	91.2
43	Grok 4.3xAI	xAI	77.3	--	91
44	Qwen3.6 PlusAlibaba	Alibaba	77.1	--	90.7
45	Qwen3.5 397B A17BAlibaba	Alibaba	76.9	--	90.5
46	GLM 4.7Zhipu AI	Zhipu AI	76.8	--	90.3
47	Gemma 4 26B A4B Google	Google	76.2	--	89.7
48	Mistral LargeMistral AI	Mistral AI	76.2	84.7	63.3
49	MiMo-V2.5Xiaomi	Xiaomi	75.6	--	89
50	GPT-4 TurboOpenAI	OpenAI	75.6	86.5	59.2
51	DeepSeek V4 FlashDeepSeek	DeepSeek	75.5	--	88.8
52	Gemini 3.1 Flash Lite PreviewGoogle	Google	75.4	--	88.7
53	Mistral Medium 3.5Mistral AI	Mistral AI	74.7	--	87.8
54	GPT-5 ChatOpenAI	OpenAI	74.7	--	87.8
55	Phi 4Microsoft	Microsoft	74.6	84.8	59.3
56	Llama 3.3 70B InstructMeta	Meta	74.6	86.3	57.2
57	GLM 4.6Zhipu AI	Zhipu AI	74.4	--	87.5
58	DeepSeek V3.2 ExpDeepSeek	DeepSeek	74.1	--	87.2
59	Claude Haiku 4.5Anthropic	Anthropic	73.4	84.5	56.7
60	DeepSeek V3.1DeepSeek	DeepSeek	73.2	--	86.2
61	Qwen3.5-122B-A10BAlibaba	Alibaba	73.2	--	86.2
62	MiniMax M2.7MiniMax	MiniMax	73.2	--	86.2
63	DeepSeek V3.1 TerminusDeepSeek	DeepSeek	73.1	--	86
64	Qwen3 VL 235B A22B InstructAlibaba	Alibaba	73	--	85.8
65	Hy3 previewTencent	Tencent	72.7	--	85.5
66	GLM 4.5Zhipu AI	Zhipu AI	72.4	--	85.2
67	Qwen3.5-27BAlibaba	Alibaba	72.1	--	84.8
68	Llama 3.1 70B InstructMeta	Meta	71.5	86	49.7
69	Qwen3 Next 80B A3B InstructAlibaba	Alibaba	71	--	83.5
70	GPT-4o-miniOpenAI	OpenAI	70.7	82	53.7
71	Qwen3.5-FlashAlibaba	Alibaba	70.4	--	82.8
72	Qwen3.5-35B-A3BAlibaba	Alibaba	70.3	--	82.7
73	Qwen3 VL 235B A22B ThinkingAlibaba	Alibaba	70.3	--	82.7
74	Step 3.5 FlashStepFun	StepFun	70.1	--	82.5
75	MiniMax M2.5MiniMax	MiniMax	69.6	--	81.8
76	GPT-5 MiniOpenAI	OpenAI	69.4	--	81.7
77	GPT-4.1 MiniOpenAI	OpenAI	68.4	--	80.5
78	o4 MiniOpenAI	OpenAI	68	--	80
79	Llama 4 ScoutMeta	Meta	67.7	79.6	--
80	GLM 4.6VZhipu AI	Zhipu AI	67.6	--	79.5
81	GLM 4.5 AirZhipu AI	Zhipu AI	67	--	78.8
82	Qwen3 Next 80B A3B ThinkingAlibaba	Alibaba	66.6	--	78.3
83	Trinity Large Thinkingarcee-ai	arcee-ai	66.4	--	78.2
84	GLM 4.7 FlashZhipu AI	Zhipu AI	66.3	--	78
85	MiniMax M1MiniMax	MiniMax	65.7	--	77.3
86	o3 Mini HighOpenAI	OpenAI	65.6	--	77.2
87	GLM 4.5VZhipu AI	Zhipu AI	64.2	--	75.5
88	gpt-oss-120bOpenAI	OpenAI	64.2	--	75.5
89	Gemma 2 27BGoogle	Google	63.9	75.2	--
90	Qwen3 8BAlibaba	Alibaba	63.3	--	74.5
91	Mercury 2Inception	Inception	63.3	--	74.5
92	MiniMax M2MiniMax	MiniMax	63.2	--	74.3
93	Llama 3.3 Nemotron Super 49B V1.5NVIDIA	NVIDIA	62.8	--	73.8
94	GPT-5 NanoOpenAI	OpenAI	61.9	--	72.8
95	Nova 2 LiteAmazon	Amazon	61.9	--	72.8
96	GPT-4.1 NanoOpenAI	OpenAI	59.8	--	70.3
97	GPT-4o-mini (2024-07-18)OpenAI	OpenAI	59.2	--	69.7
98	gpt-oss-20bOpenAI	OpenAI	59.1	--	69.5
99	Mistral Large 2407Mistral AI	Mistral AI	58.7	--	69
100	Granite 4.1 8BIBM	IBM	57.7	--	67.8
101	Olmo 3 32B ThinkAllen AI	Allen AI	57.5	--	67.7
102	GPT-4OpenAI	OpenAI	53.1	--	62.5
103	Command ACohere	Cohere	51.1	--	60.2
104	Claude 3 HaikuAnthropic	Anthropic	51.1	--	60.2
105	Command R+ (08-2024)Cohere	Cohere	49.6	--	58.3
106	Llama 3 8B InstructMeta	Meta	45.8	--	53.8
107	Llama 3.1 8B InstructMeta	Meta	44.1	--	51.8
108	Llama 3.2 3B InstructMeta	Meta	37.7	--	44.3
109	Llama 3.2 1B InstructMeta	Meta	29.8	--	35

评分计算方式

每个模型的评分是其可用基准测试结果的加权平均值。当模型缺少某些基准测试时，权重会在可用的基准测试之间重新归一化。所有评分均为0-100的刻度。数据来源于官方模型卡片、已发表论文和第三方评估平台。

其他专业排行榜

编程最佳数学最佳推理最佳写作最佳指令遵循最佳数据分析最佳角色扮演最佳

Frequently Asked Questions

根据我们的基准测试分析，OpenAI的GPT-5.4目前在Multilingual领域排名第一，加权评分为95.4/100。

模型使用MMLU、Arena Elo基准测试分数的加权平均进行排名。所有分数均归一化到0-100的刻度。

我们目前对109个拥有相关基准测试数据的模型进行了Multilingual任务排名。