使用Arena Elo评分(归一化到0-100刻度)对AI模型的角色扮演和创意对话质量进行排名。
Claude Opus 4.6
评分: 100
76.6
所有排名模型
93
有基准测试数据
每个模型的评分是其可用基准测试结果的加权平均值。当模型缺少某些基准测试时,权重会在可用的基准测试之间重新归一化。 所有评分均为0-100的刻度。数据来源于官方模型卡片、已发表论文和第三方评估平台。
根据我们的基准测试分析,Anthropic的Claude Opus 4.6目前在Roleplay领域排名第一,加权评分为100/100。
模型使用Arena Elo基准测试分数的加权平均进行排名。所有分数均归一化到0-100的刻度。
我们目前对93个拥有相关基准测试数据的模型进行了Roleplay任务排名。