Best AI Models for Multilingual Tasks

AI models ranked by multilingual performance using MMLU benchmark scores across languages. Find the best LLM for translation and non-English tasks.

Last updated: 39m ago

#1 Model

GPT-5.4

Score: 95.4

Average Score

73.7

Across all ranked models

Models Ranked

108

With benchmark data

Weights:MMLU (60%)Arena Elo (40%)

Top Best for Multilingual Models by Weighted Score

Top 15 models by weighted score

LMMarketCap.com

Benchmark Breakdown

Per-benchmark scores for top 10 models

MMLU

Arena Elo

LMMarketCap.com

#	Model	Provider	Score	MMLU	Arena Elo
1	GPT-5.4OpenAI	OpenAI	95.4	94	97.5
2	Claude Opus 4.6Anthropic	Anthropic	95.3	92.1	100
3	Gemini 3.1 Pro PreviewGoogle	Google	95.2	92.6	99
4	GPT-5.2OpenAI	OpenAI	94.8	93.5	96.8
5	GPT-5.1OpenAI	OpenAI	94.3	93.2	95.8
6	GPT-5.5OpenAI	OpenAI	93.8	92.4	95.8
7	GPT-5OpenAI	OpenAI	93.5	93	94.2
8	Claude Sonnet 4.6Anthropic	Anthropic	92.1	91.2	93.3
9	Claude Sonnet 4.5Anthropic	Anthropic	91.3	90.8	92
10	Gemini 3 Flash PreviewGoogle	Google	91.1	88	95.7
11	Gemini 2.5 ProGoogle	Google	90.7	90.8	90.7
12	Claude Opus 4.5Anthropic	Anthropic	90.2	91.4	88.3
13	o3OpenAI	OpenAI	89.7	92.3	85.8
14	Claude Opus 4Anthropic	Anthropic	89.3	91	86.7
15	DeepSeek V3.2DeepSeek	DeepSeek	88.1	88.5	87.5
16	R1 0528DeepSeek	DeepSeek	86.9	91.5	80
17	Claude Sonnet 4Anthropic	Anthropic	86.2	89.5	81.2
18	R1DeepSeek	DeepSeek	85.7	90.8	78.2
19	o1OpenAI	OpenAI	85.1	91.8	75
20	Claude Fable 5Anthropic	Anthropic	85	--	100
21	Gemini 2.5 FlashGoogle	Google	84.5	85.8	82.5
22	Claude Opus 4.7Anthropic	Anthropic	83.7	--	98.5
23	o3 MiniOpenAI	OpenAI	83.5	86.9	78.5
24	DeepSeek V3 0324DeepSeek	DeepSeek	83.2	89.2	74.2
25	Claude Opus 4.8Anthropic	Anthropic	82	--	96.5
26	Gemini 3.5 FlashGoogle	Google	81.7	--	96.2
27	GPT-5.2 ChatOpenAI	OpenAI	81.5	--	95.8
28	GLM 5.1Zhipu AI	Zhipu AI	81.5	--	95.8
29	Llama 4 MaverickMeta	Meta	81.1	88	70.8
30	DeepSeek V3DeepSeek	DeepSeek	81	88.5	69.7
31	MiMo-V2.5-ProXiaomi	Xiaomi	80.2	--	94.3
32	GPT-4.1OpenAI	OpenAI	80.2	89.2	66.7
33	DeepSeek V4 ProDeepSeek	DeepSeek	79.8	--	93.8
34	Qwen3.6 Max PreviewAlibaba	Alibaba	79.5	--	93.5
35	Kimi K2.6Moonshot AI	Moonshot AI	79.3	--	93.3
36	GPT-4oOpenAI	OpenAI	79	88.7	64.3
37	GLM 5Zhipu AI	Zhipu AI	78.9	--	92.8
38	GPT-5.5 ProOpenAI	OpenAI	78.5	92.4	--
39	Gemma 4 31BGoogle	Google	78.1	--	91.8
40	Claude Opus 4.1Anthropic	Anthropic	77.8	--	91.5
41	MiniMax M3MiniMax	MiniMax	77.6	--	91.3
42	Grok 4.3xAI	xAI	77.3	--	91
43	Qwen3.6 PlusAlibaba	Alibaba	77.1	--	90.7
44	Qwen3.5 397B A17BAlibaba	Alibaba	77.1	--	90.7
45	GLM 4.7Zhipu AI	Zhipu AI	76.9	--	90.5
46	Gemma 4 26B A4B Google	Google	76.2	--	89.7
47	Mistral LargeMistral AI	Mistral AI	76.2	84.7	63.3
48	GPT-4 TurboOpenAI	OpenAI	75.6	86.5	59.2
49	DeepSeek V4 FlashDeepSeek	DeepSeek	75.5	--	88.8
50	MiMo-V2.5Xiaomi	Xiaomi	75.5	--	88.8
51	Gemini 3.1 Flash Lite PreviewGoogle	Google	75.4	--	88.7
52	GPT-5 ChatOpenAI	OpenAI	74.7	--	87.8
53	Phi 4Microsoft	Microsoft	74.6	84.8	59.3
54	Llama 3.3 70B InstructMeta	Meta	74.6	86.3	57.2
55	Mistral Medium 3.5Mistral AI	Mistral AI	74.5	--	87.7
56	GLM 4.6Zhipu AI	Zhipu AI	74.4	--	87.5
57	DeepSeek V3.2 ExpDeepSeek	DeepSeek	74.1	--	87.2
58	Claude Haiku 4.5Anthropic	Anthropic	73.4	84.5	56.7
59	DeepSeek V3.1DeepSeek	DeepSeek	73.2	--	86.2
60	Qwen3.5-122B-A10BAlibaba	Alibaba	73.2	--	86.2
61	MiniMax M2.7MiniMax	MiniMax	73.2	--	86.2
62	DeepSeek V3.1 TerminusDeepSeek	DeepSeek	73.1	--	86
63	Qwen3 VL 235B A22B InstructAlibaba	Alibaba	73	--	85.8
64	Hy3 previewTencent	Tencent	72.7	--	85.5
65	GLM 4.5Zhipu AI	Zhipu AI	72.4	--	85.2
66	Qwen3.5-27BAlibaba	Alibaba	72.1	--	84.8
67	Llama 3.1 70B InstructMeta	Meta	71.5	86	49.7
68	Qwen3 Next 80B A3B InstructAlibaba	Alibaba	71.1	--	83.7
69	GPT-4o-miniOpenAI	OpenAI	70.7	82	53.7
70	Qwen3.5-FlashAlibaba	Alibaba	70.4	--	82.8
71	Qwen3.5-35B-A3BAlibaba	Alibaba	70.3	--	82.7
72	Qwen3 VL 235B A22B ThinkingAlibaba	Alibaba	70.3	--	82.7
73	Step 3.5 FlashStepFun	StepFun	70.1	--	82.5
74	MiniMax M2.5MiniMax	MiniMax	69.6	--	81.8
75	GPT-5 MiniOpenAI	OpenAI	69.4	--	81.7
76	GPT-4.1 MiniOpenAI	OpenAI	68.4	--	80.5
77	o4 MiniOpenAI	OpenAI	68	--	80
78	Llama 4 ScoutMeta	Meta	67.7	79.6	--
79	GLM 4.6VZhipu AI	Zhipu AI	67.6	--	79.5
80	GLM 4.5 AirZhipu AI	Zhipu AI	67	--	78.8
81	Qwen3 Next 80B A3B ThinkingAlibaba	Alibaba	66.6	--	78.3
82	Trinity Large Thinkingarcee-ai	arcee-ai	66.4	--	78.2
83	GLM 4.7 FlashZhipu AI	Zhipu AI	66.3	--	78
84	MiniMax M1MiniMax	MiniMax	65.7	--	77.3
85	o3 Mini HighOpenAI	OpenAI	65.6	--	77.2
86	GLM 4.5VZhipu AI	Zhipu AI	64.2	--	75.5
87	gpt-oss-120bOpenAI	OpenAI	64.2	--	75.5
88	Gemma 2 27BGoogle	Google	63.9	75.2	--
89	Qwen3 8BAlibaba	Alibaba	63.3	--	74.5
90	Mercury 2Inception	Inception	63.2	--	74.3
91	MiniMax M2MiniMax	MiniMax	63.2	--	74.3
92	Llama 3.3 Nemotron Super 49B V1.5NVIDIA	NVIDIA	62.8	--	73.8
93	Nova 2 LiteAmazon	Amazon	61.9	--	72.8
94	GPT-5 NanoOpenAI	OpenAI	61.9	--	72.8
95	GPT-4.1 NanoOpenAI	OpenAI	59.8	--	70.3
96	GPT-4o-mini (2024-07-18)OpenAI	OpenAI	59.2	--	69.7
97	gpt-oss-20bOpenAI	OpenAI	59.2	--	69.7
98	Mistral Large 2407Mistral AI	Mistral AI	58.7	--	69
99	Granite 4.1 8BIBM	IBM	57.7	--	67.8
100	Olmo 3 32B ThinkAllen AI	Allen AI	57.4	--	67.5
101	GPT-4OpenAI	OpenAI	53.1	--	62.5
102	Command ACohere	Cohere	51.1	--	60.2
103	Claude 3 HaikuAnthropic	Anthropic	51.1	--	60.2
104	Command R (08-2024)Cohere	Cohere	49.6	--	58.3
105	Llama 3 8B InstructMeta	Meta	45.8	--	53.8
106	Llama 3.1 8B InstructMeta	Meta	44.1	--	51.8
107	Llama 3.2 3B InstructMeta	Meta	37.7	--	44.3
108	Llama 3.2 1B InstructMeta	Meta	29.8	--	35

How scores are calculated

Each model's score is a weighted average of its available benchmark results. When a model is missing some benchmarks, the weights are re-normalized across the benchmarks that are available. All scores are on a 0-100 scale. Data sourced from official model cards, published papers, and third-party evaluation platforms.