最佳角色扮演AI模型

使用Arena Elo评分(归一化到0-100刻度)对AI模型的角色扮演和创意对话质量进行排名。

Last updated: 51m ago

第一名模型

Claude Fable 5

评分: 100

平均评分

80.2

所有排名模型

已排名模型

105

有基准测试数据

权重：Arena Elo (100%)

Top Best for Roleplay Models by Weighted Score

Top 15 models by weighted score

LMMarketCap.com

#	模型	提供商	评分	Arena Elo
1	Claude Fable 5Anthropic	Anthropic	100	100
2	Claude Opus 4.6Anthropic	Anthropic	100	100
3	Gemini 3.1 Pro PreviewGoogle	Google	99	99
4	Claude Opus 4.7Anthropic	Anthropic	98.5	98.5
5	GPT-5.4OpenAI	OpenAI	97.5	97.5
6	GPT-5.2OpenAI	OpenAI	96.8	96.8
7	Claude Opus 4.8Anthropic	Anthropic	96.5	96.5
8	Gemini 3.5 FlashGoogle	Google	96.2	96.2
9	GPT-5.2 ChatOpenAI	OpenAI	95.8	95.8
10	GLM 5.1Zhipu AI	Zhipu AI	95.8	95.8
11	GPT-5.5OpenAI	OpenAI	95.8	95.8
12	GPT-5.1OpenAI	OpenAI	95.8	95.8
13	Gemini 3 Flash PreviewGoogle	Google	95.7	95.7
14	MiMo-V2.5-ProXiaomi	Xiaomi	94.3	94.3
15	GPT-5OpenAI	OpenAI	94.2	94.2
16	DeepSeek V4 ProDeepSeek	DeepSeek	93.8	93.8
17	Qwen3.6 Max PreviewAlibaba	Alibaba	93.5	93.5
18	Claude Sonnet 4.6Anthropic	Anthropic	93.3	93.3
19	Kimi K2.6Moonshot AI	Moonshot AI	93.3	93.3
20	GLM 5Zhipu AI	Zhipu AI	92.8	92.8
21	Claude Sonnet 4.5Anthropic	Anthropic	92	92
22	Gemma 4 31BGoogle	Google	91.8	91.8
23	Claude Opus 4.1Anthropic	Anthropic	91.5	91.5
24	MiniMax M3MiniMax	MiniMax	91.3	91.3
25	Grok 4.3xAI	xAI	91	91
26	Gemini 2.5 ProGoogle	Google	90.7	90.7
27	Qwen3.6 PlusAlibaba	Alibaba	90.7	90.7
28	Qwen3.5 397B A17BAlibaba	Alibaba	90.7	90.7
29	GLM 4.7Zhipu AI	Zhipu AI	90.5	90.5
30	Gemma 4 26B A4B Google	Google	89.7	89.7
31	DeepSeek V4 FlashDeepSeek	DeepSeek	88.8	88.8
32	MiMo-V2.5Xiaomi	Xiaomi	88.8	88.8
33	Gemini 3.1 Flash Lite PreviewGoogle	Google	88.7	88.7
34	Claude Opus 4.5Anthropic	Anthropic	88.3	88.3
35	GPT-5 ChatOpenAI	OpenAI	87.8	87.8
36	Mistral Medium 3.5Mistral AI	Mistral AI	87.7	87.7
37	GLM 4.6Zhipu AI	Zhipu AI	87.5	87.5
38	DeepSeek V3.2DeepSeek	DeepSeek	87.5	87.5
39	DeepSeek V3.2 ExpDeepSeek	DeepSeek	87.2	87.2
40	Claude Opus 4Anthropic	Anthropic	86.7	86.7
41	DeepSeek V3.1DeepSeek	DeepSeek	86.2	86.2
42	Qwen3.5-122B-A10BAlibaba	Alibaba	86.2	86.2
43	MiniMax M2.7MiniMax	MiniMax	86.2	86.2
44	DeepSeek V3.1 TerminusDeepSeek	DeepSeek	86	86
45	o3OpenAI	OpenAI	85.8	85.8
46	Qwen3 VL 235B A22B InstructAlibaba	Alibaba	85.8	85.8
47	Hy3 previewTencent	Tencent	85.5	85.5
48	GLM 4.5Zhipu AI	Zhipu AI	85.2	85.2
49	Qwen3.5-27BAlibaba	Alibaba	84.8	84.8
50	Qwen3 Next 80B A3B InstructAlibaba	Alibaba	83.7	83.7
51	Qwen3.5-FlashAlibaba	Alibaba	82.8	82.8
52	Qwen3.5-35B-A3BAlibaba	Alibaba	82.7	82.7
53	Qwen3 VL 235B A22B ThinkingAlibaba	Alibaba	82.7	82.7
54	Gemini 2.5 FlashGoogle	Google	82.5	82.5
55	Step 3.5 FlashStepFun	StepFun	82.5	82.5
56	MiniMax M2.5MiniMax	MiniMax	81.8	81.8
57	GPT-5 MiniOpenAI	OpenAI	81.7	81.7
58	Claude Sonnet 4Anthropic	Anthropic	81.2	81.2
59	GPT-4.1 MiniOpenAI	OpenAI	80.5	80.5
60	R1 0528DeepSeek	DeepSeek	80	80
61	o4 MiniOpenAI	OpenAI	80	80
62	GLM 4.6VZhipu AI	Zhipu AI	79.5	79.5
63	GLM 4.5 AirZhipu AI	Zhipu AI	78.8	78.8
64	o3 MiniOpenAI	OpenAI	78.5	78.5
65	Qwen3 Next 80B A3B ThinkingAlibaba	Alibaba	78.3	78.3
66	R1DeepSeek	DeepSeek	78.2	78.2
67	Trinity Large Thinkingarcee-ai	arcee-ai	78.2	78.2
68	GLM 4.7 FlashZhipu AI	Zhipu AI	78	78
69	MiniMax M1MiniMax	MiniMax	77.3	77.3
70	o3 Mini HighOpenAI	OpenAI	77.2	77.2
71	GLM 4.5VZhipu AI	Zhipu AI	75.5	75.5
72	gpt-oss-120bOpenAI	OpenAI	75.5	75.5
73	o1OpenAI	OpenAI	75	75
74	Qwen3 8BAlibaba	Alibaba	74.5	74.5
75	Mercury 2Inception	Inception	74.3	74.3
76	MiniMax M2MiniMax	MiniMax	74.3	74.3
77	DeepSeek V3 0324DeepSeek	DeepSeek	74.2	74.2
78	Llama 3.3 Nemotron Super 49B V1.5NVIDIA	NVIDIA	73.8	73.8
79	Nova 2 LiteAmazon	Amazon	72.8	72.8
80	GPT-5 NanoOpenAI	OpenAI	72.8	72.8
81	Llama 4 MaverickMeta	Meta	70.8	70.8
82	GPT-4.1 NanoOpenAI	OpenAI	70.3	70.3
83	DeepSeek V3DeepSeek	DeepSeek	69.7	69.7
84	GPT-4o-mini (2024-07-18)OpenAI	OpenAI	69.7	69.7
85	gpt-oss-20bOpenAI	OpenAI	69.7	69.7
86	Mistral Large 2407Mistral AI	Mistral AI	69	69
87	Granite 4.1 8BIBM	IBM	67.8	67.8
88	Olmo 3 32B ThinkAllen AI	Allen AI	67.5	67.5
89	GPT-4.1OpenAI	OpenAI	66.7	66.7
90	GPT-4oOpenAI	OpenAI	64.3	64.3
91	Mistral LargeMistral AI	Mistral AI	63.3	63.3
92	GPT-4OpenAI	OpenAI	62.5	62.5
93	Command ACohere	Cohere	60.2	60.2
94	Claude 3 HaikuAnthropic	Anthropic	60.2	60.2
95	Phi 4Microsoft	Microsoft	59.3	59.3
96	GPT-4 TurboOpenAI	OpenAI	59.2	59.2
97	Command R (08-2024)Cohere	Cohere	58.3	58.3
98	Llama 3.3 70B InstructMeta	Meta	57.2	57.2
99	Claude Haiku 4.5Anthropic	Anthropic	56.7	56.7
100	Llama 3 8B InstructMeta	Meta	53.8	53.8
101	GPT-4o-miniOpenAI	OpenAI	53.7	53.7
102	Llama 3.1 8B InstructMeta	Meta	51.8	51.8
103	Llama 3.1 70B InstructMeta	Meta	49.7	49.7
104	Llama 3.2 3B InstructMeta	Meta	44.3	44.3
105	Llama 3.2 1B InstructMeta	Meta	35	35

评分计算方式

每个模型的评分是其可用基准测试结果的加权平均值。当模型缺少某些基准测试时，权重会在可用的基准测试之间重新归一化。所有评分均为0-100的刻度。数据来源于官方模型卡片、已发表论文和第三方评估平台。

其他专业排行榜

编程最佳数学最佳推理最佳写作最佳指令遵循最佳数据分析最佳多语言最佳

Frequently Asked Questions

根据我们的基准测试分析，Anthropic的Claude Fable 5目前在Roleplay领域排名第一，加权评分为100/100。

模型使用Arena Elo基准测试分数的加权平均进行排名。所有分数均归一化到0-100的刻度。

我们目前对105个拥有相关基准测试数据的模型进行了Roleplay任务排名。