模型稳定性报告

哪些AI模型随时间最为一致？本报告分析了 300 个被追踪模型的排名变化、状态分类和波动曲线，生成0到100的稳定性评分。

坚如磐石

273

一致

可变

波动

稳定性分类分布

LMMarketCap.com

服务商稳定性排名 (平均分)

LMMarketCap.com

最稳定模型

稳定性评分最高的前20个模型。这些模型保持一致的排名，波动性最小。

#	模型	提供商	评分	稳定性	24小时	状态	排名波动
1	Claude Fable 5Anthropic	Anthropic	96.6	100	0	stable	±1
2	Claude Opus 4.7 (Fast)Anthropic	Anthropic	94.7	100	0	stable	±2
3	Claude Opus 4.8 (Fast)Anthropic	Anthropic	94.2	100	0	stable	±2
4	Claude Opus 4.8Anthropic	Anthropic	94.2	100	0	stable	±2
5	GPT-5.5OpenAI	OpenAI	92.2	100	0	stable	±2
6	GPT-5.5 ProOpenAI	OpenAI	90.3	100	0	stable	±2
7	Claude Opus 4.6 (Fast)Anthropic	Anthropic	90.0	100	0	stable	±2
8	Grok 4.20xAI	xAI	88.3	100	0	stable	±2
9	Grok 4.20 Multi-AgentxAI	xAI	87.4	100	0	stable	±2
10	DeepSeek V4 ProDeepSeek	DeepSeek	86.2	100	0	stable	±2
11	Claude Sonnet 4.6Anthropic	Anthropic	84.7	100	0	stable	±2
12	Grok 4.3xAI	xAI	80.5	100	0	stable	±2
13	Gemma 4 31B (free)Google	Google	80.0	100	0	stable	±2
14	GPT-5.4 NanoOpenAI	OpenAI	78.8	100	0	stable	±2
15	GPT-5.4 MiniOpenAI	OpenAI	78.8	100	0	stable	±2
16	Gemini 3.5 FlashGoogle	Google	78.5	100	0	stable	±2
17	GLM 5.2Zhipu AI	Zhipu AI	78.1	100	+1	stable	±2
18	DeepSeek V4 FlashDeepSeek	DeepSeek	77.2	100	+1	stable	±2
19	GLM 5.1Zhipu AI	Zhipu AI	76.1	100	+1	stable	±2
20	Kimi K2.6Moonshot AI	Moonshot AI	75.2	100	+1	stable	±2

最不稳定模型

稳定性评分最低的后20个模型。这些模型表现出显著的排名波动或不一致的状态。

#	模型	提供商	评分	稳定性	24小时	7天	状态	排名波动
1	Mistral NemoMistral AI	Mistral AI	39.9	23	-11	-11	fragile	±2
2	GLM 5V TurboZhipu AI	Zhipu AI	40.0	34	-146	+115	preliminary	±2
3	Fugu Ultrasakana	sakana	40.0	54	+147	+147	preliminary	±2
4	Trinity Large Thinkingarcee-ai	arcee-ai	62.7	73	+1	-4	stable	±2
5	Command R+ (08-2024)Cohere	Cohere	48.3	74	+2	+2	stable	±2
6	Coder Largearcee-ai	arcee-ai	39.3	82	-1	-1	stable	±2
7	Qwen3.5 Plus 2026-02-15Alibaba	Alibaba	40.0	82	-1	-1	stable	±2
8	Seed-2.0-MiniByteDance	ByteDance	40.0	82	-1	-1	stable	±2
9	Command R (08-2024)Cohere	Cohere	48.3	82	+1	+1	stable	±2
10	Command ACohere	Cohere	50.4	82	+1	+1	stable	±2
11	Claude 3 HaikuAnthropic	Anthropic	50.9	82	+1	+1	stable	±2
12	Kimi K2 0711Moonshot AI	Moonshot AI	51.0	82	+1	+1	stable	±2
13	Qwen3 235B A22BAlibaba	Alibaba	53.5	82	+1	+1	stable	±2
14	Llama 4 ScoutMeta	Meta	54.9	82	+1	+1	stable	±2
15	Mistral Large 2407Mistral AI	Mistral AI	55.8	82	+1	+1	stable	±2
16	GPT-4o-mini (2024-07-18)OpenAI	OpenAI	56.1	82	+1	+1	stable	±2
17	gpt-oss-20b (free)OpenAI	OpenAI	57.1	82	+1	+1	stable	±2
18	Mixtral 8x22B InstructMistral AI	Mistral AI	63.0	82	+1	+1	stable	±2
19	o3 Mini HighOpenAI	OpenAI	63.5	82	+1	+1	stable	±2
20	Llama 3.1 8B InstructMeta	Meta	44.1	82	+1	+1	stable	±2

各服务商稳定性

各服务商的汇总稳定性指标。服务商按所有模型的平均稳定性评分排名。

提供商	模型	平均稳定性	最稳定模型	最不稳定模型
xAI	4	100.0	Grok 4.20(100)	Grok 4.20(100)
Tencent	2	100.0	Hy3 preview(100)	Hy3 preview(100)
~anthropic	4	100.0	Claude Fable Latest(100)	Claude Fable Latest(100)
perceptron	1	100.0	Perceptron Mk1(100)	Perceptron Mk1(100)
inclusionai	3	100.0	Ring-2.6-1T(100)	Ring-2.6-1T(100)
poolside	4	100.0	Laguna XS.2 (free)(100)	Laguna XS.2 (free)(100)
~openai	2	100.0	OpenAI GPT Mini Latest(100)	OpenAI GPT Mini Latest(100)
~google	2	100.0	Google Gemini Pro Latest(100)	Google Gemini Pro Latest(100)
~moonshotai	1	100.0	MoonshotAI Kimi Latest(100)	MoonshotAI Kimi Latest(100)
deepcogito	1	100.0	Cogito v2.1 671B(100)	Cogito v2.1 671B(100)
AI21 Labs	1	100.0	Jamba Large 1.7(100)	Jamba Large 1.7(100)
HUMAIN	3	100.0	ALLaM 2 7B Instruct(100)	ALLaM 2 7B Instruct(100)
TII	6	100.0	Falcon-H1-Arabic 34B Instruct(100)	Falcon-H1-Arabic 34B Instruct(100)
Baidu	1	98.6	ERNIE 4.5 VL 424B A47B (99)	ERNIE 4.5 VL 424B A47B (99)
Kuaishou	1	97.7	KAT-Coder-Pro V2(98)	KAT-Coder-Pro V2(98)
Perplexity	5	96.6	Sonar Reasoning Pro(100)	Sonar(94)
Amazon	5	96.5	Nova Premier 1.0(100)	Nova Micro 1.0(90)
NVIDIA	11	96.4	Nemotron 3.5 Content Safety (free)(100)	Nemotron 3 Super (free)(86)
rekaai	2	96.2	Reka Flash 3(97)	Reka Edge(95)
Writer	1	96.1	Palmyra X5(96)	Palmyra X5(96)
Inception	1	95.6	Mercury 2(96)	Mercury 2(96)
Upstage	1	94.1	Solar Pro 3(94)	Solar Pro 3(94)
Anthropic	15	94.1	Claude Fable 5(100)	Claude 3 Haiku(82)
Alibaba	48	93.7	Qwen3.6 Max Preview(100)	Qwen3 235B A22B(82)
Google	22	93.6	Gemma 4 31B (free)(100)	Gemma 2 27B(85)
Windsurf	1	93.5	SWE-1.5(94)	SWE-1.5(94)
Moonshot AI	6	93.0	Kimi K2.6(100)	Kimi K2 0711(82)
StepFun	2	92.8	Step 3.7 Flash(100)	Step 3.5 Flash(86)
Microsoft	2	92.5	Phi 4 Mini Instruct(100)	Phi 4(85)
aion-labs	3	92.4	Aion-2.0(97)	Aion-1.0(90)
OpenAI	58	89.8	GPT-5.5(100)	o3 Mini High(82)
Liquid AI	3	89.7	LFM2.5-1.2B-Thinking (free)(94)	LFM2.5-1.2B-Instruct (free)(87)
MiniMax	8	89.7	MiniMax M3(100)	MiniMax M2.5(85)
IBM	2	88.9	Granite 4.0 Micro(91)	Granite 4.1 8B(87)
Mistral AI	18	88.6	Ministral 3 14B 2512(100)	Mistral Nemo(23)
DeepSeek	11	88.5	DeepSeek V4 Pro(100)	R1 Distill Llama 70B(84)
Meta	8	86.9	Llama Guard 4 12B(96)	Llama 4 Scout(82)
ByteDance	5	86.6	UI-TARS 7B (93)	Seed-2.0-Mini(82)
arcee-ai	4	86.3	Trinity Mini(100)	Trinity Large Thinking(73)
Zhipu AI	12	85.9	GLM 5.2(100)	GLM 5V Turbo(34)
Xiaomi	2	85.0	MiMo-V2.5-Pro(85)	MiMo-V2.5-Pro(85)
Cursor	2	85.0	Composer 2(85)	Composer 2(85)
Allen AI	1	84.7	Olmo 3 32B Think(85)	Olmo 3 32B Think(85)
Cohere	4	84.5	North Mini Code (free)(100)	Command R+ (08-2024)(74)
sakana	1	54.0	Fugu Ultra(54)	Fugu Ultra(54)

稳定性分布

所有 300 个被追踪模型的稳定性评分分布。

0–10

10–20

20–30

30–40

40–50

50–60

60–70

70–80

80–90

90–100

198

什么让模型保持稳定?

我们的稳定性评分系统使用三个关键信号来衡量模型随时间的一致性表现。

排名一致性

稳定性的最直接衡量标准。模型因24小时内较大的排名变化最多失去25分（每移动一个排名位置扣5分），7天变化最多失去21分（每个位置扣3分）。排名保持稳定的模型得分更高。

状态分类

每个模型都有一个反映其整体可靠性的状态。处于"稳定"状态的模型获得10分加分，而"脆弱"模型被扣15分。这捕捉了超越简单排名变动的系统性可靠性。

波动曲线

14天的波动曲线数据揭示了隐藏的波动性。我们计算波动曲线的标准差并最多减去20分。即使最终回到起点的模型，如果中间剧烈波动也会被扣分。

模型稳定性报告

哪些AI模型随时间最为一致？本报告分析了 300 个被追踪模型的排名变化、状态分类和波动曲线，生成0到100的稳定性评分。

坚如磐石

273

一致

可变

波动

稳定性分类分布

LMMarketCap.com

服务商稳定性排名 (平均分)

LMMarketCap.com

最稳定模型

稳定性评分最高的前20个模型。这些模型保持一致的排名，波动性最小。

#	模型	提供商	评分	稳定性	24小时	状态	排名波动
1	Claude Fable 5Anthropic	Anthropic	96.6	100	0	stable	±1
2	Claude Opus 4.7 (Fast)Anthropic	Anthropic	94.7	100	0	stable	±2
3	Claude Opus 4.8 (Fast)Anthropic	Anthropic	94.2	100	0	stable	±2
4	Claude Opus 4.8Anthropic	Anthropic	94.2	100	0	stable	±2
5	GPT-5.5OpenAI	OpenAI	92.2	100	0	stable	±2
6	GPT-5.5 ProOpenAI	OpenAI	90.3	100	0	stable	±2
7	Claude Opus 4.6 (Fast)Anthropic	Anthropic	90.0	100	0	stable	±2
8	Grok 4.20xAI	xAI	88.3	100	0	stable	±2
9	Grok 4.20 Multi-AgentxAI	xAI	87.4	100	0	stable	±2
10	DeepSeek V4 ProDeepSeek	DeepSeek	86.2	100	0	stable	±2
11	Claude Sonnet 4.6Anthropic	Anthropic	84.7	100	0	stable	±2
12	Grok 4.3xAI	xAI	80.5	100	0	stable	±2
13	Gemma 4 31B (free)Google	Google	80.0	100	0	stable	±2
14	GPT-5.4 NanoOpenAI	OpenAI	78.8	100	0	stable	±2
15	GPT-5.4 MiniOpenAI	OpenAI	78.8	100	0	stable	±2
16	Gemini 3.5 FlashGoogle	Google	78.5	100	0	stable	±2
17	GLM 5.2Zhipu AI	Zhipu AI	78.1	100	+1	stable	±2
18	DeepSeek V4 FlashDeepSeek	DeepSeek	77.2	100	+1	stable	±2
19	GLM 5.1Zhipu AI	Zhipu AI	76.1	100	+1	stable	±2
20	Kimi K2.6Moonshot AI	Moonshot AI	75.2	100	+1	stable	±2

最不稳定模型

稳定性评分最低的后20个模型。这些模型表现出显著的排名波动或不一致的状态。

#	模型	提供商	评分	稳定性	24小时	7天	状态	排名波动
1	Mistral NemoMistral AI	Mistral AI	39.9	23	-11	-11	fragile	±2
2	GLM 5V TurboZhipu AI	Zhipu AI	40.0	34	-146	+115	preliminary	±2
3	Fugu Ultrasakana	sakana	40.0	54	+147	+147	preliminary	±2
4	Trinity Large Thinkingarcee-ai	arcee-ai	62.7	73	+1	-4	stable	±2
5	Command R+ (08-2024)Cohere	Cohere	48.3	74	+2	+2	stable	±2
6	Coder Largearcee-ai	arcee-ai	39.3	82	-1	-1	stable	±2
7	Qwen3.5 Plus 2026-02-15Alibaba	Alibaba	40.0	82	-1	-1	stable	±2
8	Seed-2.0-MiniByteDance	ByteDance	40.0	82	-1	-1	stable	±2
9	Command R (08-2024)Cohere	Cohere	48.3	82	+1	+1	stable	±2
10	Command ACohere	Cohere	50.4	82	+1	+1	stable	±2
11	Claude 3 HaikuAnthropic	Anthropic	50.9	82	+1	+1	stable	±2
12	Kimi K2 0711Moonshot AI	Moonshot AI	51.0	82	+1	+1	stable	±2
13	Qwen3 235B A22BAlibaba	Alibaba	53.5	82	+1	+1	stable	±2
14	Llama 4 ScoutMeta	Meta	54.9	82	+1	+1	stable	±2
15	Mistral Large 2407Mistral AI	Mistral AI	55.8	82	+1	+1	stable	±2
16	GPT-4o-mini (2024-07-18)OpenAI	OpenAI	56.1	82	+1	+1	stable	±2
17	gpt-oss-20b (free)OpenAI	OpenAI	57.1	82	+1	+1	stable	±2
18	Mixtral 8x22B InstructMistral AI	Mistral AI	63.0	82	+1	+1	stable	±2
19	o3 Mini HighOpenAI	OpenAI	63.5	82	+1	+1	stable	±2
20	Llama 3.1 8B InstructMeta	Meta	44.1	82	+1	+1	stable	±2

各服务商稳定性

各服务商的汇总稳定性指标。服务商按所有模型的平均稳定性评分排名。

提供商	模型	平均稳定性	最稳定模型	最不稳定模型
xAI	4	100.0	Grok 4.20(100)	Grok 4.20(100)
Tencent	2	100.0	Hy3 preview(100)	Hy3 preview(100)
~anthropic	4	100.0	Claude Fable Latest(100)	Claude Fable Latest(100)
perceptron	1	100.0	Perceptron Mk1(100)	Perceptron Mk1(100)
inclusionai	3	100.0	Ring-2.6-1T(100)	Ring-2.6-1T(100)
poolside	4	100.0	Laguna XS.2 (free)(100)	Laguna XS.2 (free)(100)
~openai	2	100.0	OpenAI GPT Mini Latest(100)	OpenAI GPT Mini Latest(100)
~google	2	100.0	Google Gemini Pro Latest(100)	Google Gemini Pro Latest(100)
~moonshotai	1	100.0	MoonshotAI Kimi Latest(100)	MoonshotAI Kimi Latest(100)
deepcogito	1	100.0	Cogito v2.1 671B(100)	Cogito v2.1 671B(100)
AI21 Labs	1	100.0	Jamba Large 1.7(100)	Jamba Large 1.7(100)
HUMAIN	3	100.0	ALLaM 2 7B Instruct(100)	ALLaM 2 7B Instruct(100)
TII	6	100.0	Falcon-H1-Arabic 34B Instruct(100)	Falcon-H1-Arabic 34B Instruct(100)
Baidu	1	98.6	ERNIE 4.5 VL 424B A47B (99)	ERNIE 4.5 VL 424B A47B (99)
Kuaishou	1	97.7	KAT-Coder-Pro V2(98)	KAT-Coder-Pro V2(98)
Perplexity	5	96.6	Sonar Reasoning Pro(100)	Sonar(94)
Amazon	5	96.5	Nova Premier 1.0(100)	Nova Micro 1.0(90)
NVIDIA	11	96.4	Nemotron 3.5 Content Safety (free)(100)	Nemotron 3 Super (free)(86)
rekaai	2	96.2	Reka Flash 3(97)	Reka Edge(95)
Writer	1	96.1	Palmyra X5(96)	Palmyra X5(96)
Inception	1	95.6	Mercury 2(96)	Mercury 2(96)
Upstage	1	94.1	Solar Pro 3(94)	Solar Pro 3(94)
Anthropic	15	94.1	Claude Fable 5(100)	Claude 3 Haiku(82)
Alibaba	48	93.7	Qwen3.6 Max Preview(100)	Qwen3 235B A22B(82)
Google	22	93.6	Gemma 4 31B (free)(100)	Gemma 2 27B(85)
Windsurf	1	93.5	SWE-1.5(94)	SWE-1.5(94)
Moonshot AI	6	93.0	Kimi K2.6(100)	Kimi K2 0711(82)
StepFun	2	92.8	Step 3.7 Flash(100)	Step 3.5 Flash(86)
Microsoft	2	92.5	Phi 4 Mini Instruct(100)	Phi 4(85)
aion-labs	3	92.4	Aion-2.0(97)	Aion-1.0(90)
OpenAI	58	89.8	GPT-5.5(100)	o3 Mini High(82)
Liquid AI	3	89.7	LFM2.5-1.2B-Thinking (free)(94)	LFM2.5-1.2B-Instruct (free)(87)
MiniMax	8	89.7	MiniMax M3(100)	MiniMax M2.5(85)
IBM	2	88.9	Granite 4.0 Micro(91)	Granite 4.1 8B(87)
Mistral AI	18	88.6	Ministral 3 14B 2512(100)	Mistral Nemo(23)
DeepSeek	11	88.5	DeepSeek V4 Pro(100)	R1 Distill Llama 70B(84)
Meta	8	86.9	Llama Guard 4 12B(96)	Llama 4 Scout(82)
ByteDance	5	86.6	UI-TARS 7B (93)	Seed-2.0-Mini(82)
arcee-ai	4	86.3	Trinity Mini(100)	Trinity Large Thinking(73)
Zhipu AI	12	85.9	GLM 5.2(100)	GLM 5V Turbo(34)
Xiaomi	2	85.0	MiMo-V2.5-Pro(85)	MiMo-V2.5-Pro(85)
Cursor	2	85.0	Composer 2(85)	Composer 2(85)
Allen AI	1	84.7	Olmo 3 32B Think(85)	Olmo 3 32B Think(85)
Cohere	4	84.5	North Mini Code (free)(100)	Command R+ (08-2024)(74)
sakana	1	54.0	Fugu Ultra(54)	Fugu Ultra(54)

稳定性分布

所有 300 个被追踪模型的稳定性评分分布。

0–10

10–20

20–30

30–40

40–50

50–60

60–70

70–80

80–90

90–100

198

什么让模型保持稳定?

我们的稳定性评分系统使用三个关键信号来衡量模型随时间的一致性表现。

排名一致性

状态分类

每个模型都有一个反映其整体可靠性的状态。处于"稳定"状态的模型获得10分加分，而"脆弱"模型被扣15分。这捕捉了超越简单排名变动的系统性可靠性。

波动曲线

14天的波动曲线数据揭示了隐藏的波动性。我们计算波动曲线的标准差并最多减去20分。即使最终回到起点的模型，如果中间剧烈波动也会被扣分。

模型稳定性报告

稳定性分类分布

服务商稳定性排名 (平均分)

最稳定模型

最不稳定模型

各服务商稳定性

稳定性分布

什么让模型保持稳定?

排名一致性

状态分类

波动曲线

相关

模型稳定性报告

稳定性分类分布

服务商稳定性排名 (平均分)

最稳定模型

最不稳定模型

各服务商稳定性

稳定性分布

什么让模型保持稳定?

排名一致性

状态分类

波动曲线

相关