变化显著性追踪器

并非所有排名变化都有意义，有些只是随机噪音。此页面使用统计分析来判断哪些模型评分变动是真实趋势，哪些只是正常波动。

已分析模型

295

显著变化

噪音 (不显著)

295

双时间维度

这意味着什么

0 / 295 个模型的评分变化具有统计显著性--这些是真实的性能变化，不是随机噪音。
295 个模型的评分变化在正常波动范围内--不要过度解读这些模型的小幅排名变化。
2 个模型在每日和每周两个时间维度上都显示显著变化--这些是最强、最可靠的真实性能变化信号。
使用方法：当模型排名发生变化时，先查看此页面。如果未标记为显著，则变化很可能是暂时的噪音。如果确实显著，则模型正在真正地改善或下降。

真实性能变化

0 个模型的近期评分偏离其历史平均值足以被认为是真实变化（非噪音）。按变化极端程度排序。Z分数衡量变化的异常程度--超过±1.96表示有95%的概率该变化是真实的。

没有显著变化

所有模型评分变化均在正常统计方差范围内。

短期变化 vs. 持续变化

24小时内的排名变化可能只是暂时的。但如果7天内也在变动，那就是真正的趋势。在两个时间维度上都被标记的模型最值得关注--它们代表已确认的持续性能变化。

在两个时间维度上均显著(最强信号)

模型	提供商	评分	24小时变化	7天变化
Mistral NemoMistral AI	Mistral AI	39.9	-11	-11
GLM 5V TurboZhipu AI	Zhipu AI	40.0	-146	+115

仅每日(可能是噪音)

没有仅在每日维度上显著的模型。

仅每周(正在形成趋势)

没有仅在每周维度上显著的模型。

哪些模型嘈杂、哪些模型稳定?

有些模型天然评分稳定--即使小幅排名变化也有意义。其他模型评分波动较大--需要更大的变化才值得关注。CV%（变异系数）告诉你每个模型的波动程度。越高 = 越嘈杂。

最不稳定模型(最高CV% - 最宽显著性阈值)

模型	提供商	评分	CV%	标准差	显著性阈值
Gemma 2 27BGoogle	Google	77.1	57.6%	30.49	±59.76
Qwen2.5 Coder 32B InstructAlibaba	Alibaba	40.0	55.8%	14.58	±28.57
Coder Largearcee-ai	arcee-ai	39.3	52.6%	14.95	±29.31
Gemma 3n 4BGoogle	Google	40.0	51.8%	14.66	±28.74
Llama 3.3 70B Instruct (free)Meta	Meta	65.5	51.6%	23.98	±47.01
Phi 4Microsoft	Microsoft	59.9	51.5%	21.92	±42.96
R1DeepSeek	DeepSeek	73.7	45.6%	24.53	±48.07
GPT-4o Search PreviewOpenAI	OpenAI	70.0	43.6%	22.71	±44.52
Command ACohere	Cohere	50.4	42.1%	15.95	±31.26
GPT-4OpenAI	OpenAI	64.5	41.8%	20.28	±39.74
Mixtral 8x22B InstructMistral AI	Mistral AI	63.0	41.2%	19.58	±38.37
Llama 3.1 70B InstructMeta	Meta	64.9	41.1%	20.14	±39.47
Llama 3.3 70B InstructMeta	Meta	66.4	40.7%	20.47	±40.12
Mistral LargeMistral AI	Mistral AI	65.5	40.6%	20.15	±39.49
MiniMax M2-herMiniMax	MiniMax	68.8	40.5%	21.09	±41.34
o3 MiniOpenAI	OpenAI	74.9	39.2%	22.32	±43.75
DeepSeek V3DeepSeek	DeepSeek	69.0	38.7%	20.49	±40.16
GPT-4o-mini Search PreviewOpenAI	OpenAI	60.4	38.7%	17.90	±35.09
Nova Micro 1.0Amazon	Amazon	40.0	38.0%	11.66	±22.85
GPT-4 Turbo PreviewOpenAI	OpenAI	59.4	37.4%	17.18	±33.67

最稳定模型(最低CV% - 最窄显著性阈值)

模型	提供商	评分	CV%	显著性阈值
Claude Fable 5Anthropic	Anthropic	96.6	0.0%	±0.00
Claude Opus 4.7 (Fast)Anthropic	Anthropic	94.7	0.0%	±0.00
Kimi K2.7 CodeMoonshot AI	Moonshot AI	53.7	0.0%	±0.00
Claude Fable Latest~anthropic	~anthropic	40.0	0.0%	±0.00
Nemotron 3.5 Content Safety (free)NVIDIA	NVIDIA	40.0	0.0%	±0.00
Nemotron 3 Ultra (free)NVIDIA	NVIDIA	40.0	0.0%	±0.00
Nemotron 3 UltraNVIDIA	NVIDIA	40.0	0.0%	±0.00
Qwen3.7 PlusAlibaba	Alibaba	40.0	0.0%	±0.00
Step 3.7 FlashStepFun	StepFun	40.0	0.0%	±0.00
Qwen3.7 MaxAlibaba	Alibaba	40.0	0.0%	±0.00
Grok Build 0.1xAI	xAI	40.0	0.0%	±0.00
Perceptron Mk1perceptron	perceptron	40.0	0.0%	±0.00
Ring-2.6-1Tinclusionai	inclusionai	40.0	0.0%	±0.00
GPT Chat LatestOpenAI	OpenAI	40.0	0.0%	±0.00
Nemotron 3 Nano Omni (free)NVIDIA	NVIDIA	40.0	0.0%	±0.00
Laguna XS.2 (free)poolside	poolside	40.0	0.0%	±0.00
Laguna M.1 (free)poolside	poolside	40.0	0.0%	±0.00
Anthropic Claude Haiku Latest~anthropic	~anthropic	40.0	0.0%	±0.00
OpenAI GPT Mini Latest~openai	~openai	40.0	0.0%	±0.00
Google Gemini Pro Latest~google	~google	40.0	0.0%	±0.00

如何计算显著性

了解我们显著性分析背后的统计方法，帮助您区分真实的性能变化和随机波动。

统计显著性

我们使用95%置信度阈值(|z| > 1.96)的z分数。z分数衡量模型当前评分偏离其历史基准的标准差倍数。只有超过1.96个标准差的变化才被标记为统计显著。

基准评分

基准值是根据每个模型14天波动曲线数据的算术平均值计算的。该滚动平均值平滑了每日波动,提供了检测有意义偏差的稳定参考点。

置信区间

每个模型的95%置信区间计算公式为：基准值 +/- 1.96 x 标准差。落在此范围之外的评分表示统计上有意义的变化。"置信度"列显示 +/- 阈值。

多时间维度分析

每日(24小时)和每周(7天)排名变化分别分析。每日显著性要求排名移动超过3位,每周要求超过5位。在两个时间维度上都显著的模型代表最强、最可靠的信号。

噪音与信号

变异系数(CV%)衡量相对波动性。高CV模型天然评分嘈杂,需要更大的绝对变化才能达到显著性。低CV模型更可预测,因此即使小偏差也可能代表真实变化。

相关

Frequently Asked Questions

Statistical significance indicates whether a model's rank change represents a real performance shift or is just random noise. We use z-scores with a 95% confidence threshold (|z| > 1.96), meaning a change is only flagged as significant if there is less than a 5% chance it occurred by random variation.

A z-score measures how many standard deviations a model's current score deviates from its historical baseline. It is calculated as (current score - baseline mean) / standard deviation. Values above +1.96 indicate significant improvement, while values below -1.96 indicate significant decline.

The CV% measures a model's relative score volatility. A high CV% means the model's performance fluctuates a lot, requiring larger changes to be statistically significant. A low CV% means the model is very consistent, so even small deviations may represent meaningful shifts. This helps distinguish inherently noisy models from truly changing ones.