300个AI模型综合评分分布的统计分析。探索均值、中位数、百分位数和层级分布,了解AI模型格局。
所有300个评分模型的汇总统计。
平均分
68.0
+/- 14.9 标准差
中位分
71.0
评分范围
20-94
第95百分位
85.8
高于中位数
150
共300个模型
每个10分区间中的模型数量。
按性能层级分组的模型及汇总统计。
| 层级 | 范围 | 数量 | 占比 |
|---|---|---|---|
| Elite | 90–100 | 10 | 3.3% |
| Strong | 70–89 | 142 | 47.3% |
| Average | 50–69 | 101 | 33.7% |
| Below Average | 30–49 | 36 | 12.0% |
| Weak | 0–29 | 1 | 0.3% |
关键百分位数的评分阈值。
| 百分位 | 评分 | 位置 |
|---|---|---|
| P5 | 39.0 | 2094 |
| P10 | 45.2 | 2094 |
| P25 | 59.2 | 2094 |
| P50 | 71.0 | 2094 |
| P75 | 80.1 | 2094 |
| P90 | 85.0 | 2094 |
| P95 | 85.8 | 2094 |
拥有3+模型的服务商,按平均综合评分排名。
| 提供商 | 模型 | 平均评分 |
|---|---|---|
1Xiaomi | 3 | 84.2 |
2ByteDance | 5 | 80.5 |
3xAI | 10 | 78.7 |
4Anthropic | 13 | 77.3 |
5Moonshot AI | 4 | 73.8 |
6OpenAI | 60 | 72.4 |
7MiniMax | 8 | 72.2 |
8DeepSeek | 11 | 71.4 |
9Alibaba | 50 | 70.9 |
10NVIDIA | 11 | 70.5 |
模型在前20%、中间60%和后20%评分中的分布情况。
评分的计算方式以及分布所揭示的信息。
每个模型获得0到100的综合评分,由六个信号的加权组合计算:功能(25%)、价格档位(25%)、上下文窗口(15%)、时效性(15%)、输出容量(10%)和多功能性(10%)。该评分旨在用一个数字衡量模型的整体质量和价值。
评分分布揭示了AI模型的竞争格局。中位数附近的紧密聚集表明有许多能力相近的模型,而分散的分布则表明层级之间有明显的差异。分布的形状、偏斜度以及均值和中位数之间的差距都能揭示市场是头重脚轻、底部沉重还是均匀分布。
The score distribution shows how all 290+ tracked AI models are spread across the 0-100 SignalScore scale. Most models cluster in the 40-70 range, with a small elite group scoring above 80 and budget/older models falling below 30.
SignalScore is a composite metric combining six weighted factors: capability breadth (25%), pricing tier (25%), context window (15%), recency (15%), output capacity (10%), and versatility (10%). Each factor is normalized to a 0-100 scale before weighting.
Models scoring above the 75th percentile (typically 65+ SignalScore) are considered strong performers. The top 10% of models score above 78, while the median score across all tracked models sits around 52-55.