了解综合评分如何由各个信号组成。每个信号衡量一个独特的质量维度,经过加权和组合产生每个模型的最终评分。
所有评分模型信号数据的高级汇总。
追踪的信号
6
个独特质量维度
有信号数据的模型
300
共300个模型
每模型平均信号数
5.4
个信号/模型 (平均)
按综合评分计算中的平均权重排名的信号。权重越高意味着对最终评分的影响越大。
| 信号 | 平均权重 | 平均评分 |
|---|---|---|
Benchmarks | 30.0% | 68.6 |
Capabilities | 26.3% | 60.4 |
Pricing | 21.3% | 8.5 |
Recency | 15.0% | 75.7 |
Context Window | 13.1% | 81.4 |
Output Capacity | 13.1% | 59.7 |
按综合评分排列的前10个模型及其堆叠信号贡献。每个彩色段与该信号对总分的贡献成正比。
每个信号中,按该信号对综合评分的贡献排名的前5个模型。
哪些信号倾向于同步变化?所有模型中信号评分之间的皮尔逊相关系数。接近+1的值表示信号同升同降;接近-1的值表示反向关系。
信号如何工作并贡献于综合评分。
信号是捕捉模型价值不同方面的独立质量维度。每个信号衡量一个特定属性,如基准性能、定价效率、上下文容量或功能广度。它们共同提供了模型质量的多维视角。
每个信号被赋予一个权重,反映其在整体评估中的重要性。权重以分数形式表示,总和为1.0(100%)。权重为0.25的信号最多可贡献综合评分的25%。权重根据信号与实际模型质量的相关性进行校准。
每个信号的原始值被归一化到0-100的范围,使信号可以比较,无论其原始单位如何。100分表示该模型在该信号中排名最高,而0分表示最低性能。先计算Z分数,然后映射到0-100范围。
信号的贡献等于其权重乘以归一化评分。例如,权重为0.25、归一化评分为80的信号贡献20分到综合评分。所有贡献的总和即为最终综合评分。这使得很容易看出哪些信号驱动了每个模型的排名。
SignalScore breaks down into six components: Capability (breadth of supported features), Pricing (cost competitiveness), Context (input window size), Recency (how new the model is), Output (generation capacity), and Versatility (range of supported tasks and modalities).
Capability and Pricing each carry 25% weight, making them the two most impactful signals. A model that supports many capabilities (vision, function calling, streaming, reasoning) and has competitive pricing will score significantly higher than one that excels in only one dimension.
Some signals are positively correlated - models with large context windows tend to also have broad capabilities. Others show negative correlation - the most capable premium models often score low on pricing. Understanding these correlations helps explain why some models rank differently than expected.