最近更新: 5h ago

Arena 基准测试

LMSYS Chatbot Arena Elo Rating 排行榜

Human preference rating from 6M+ crowdsourced blind head-to-head comparisons. Users chat with two anonymous models and pick the better response.

为什么重要： The most trusted 'vibes-based' benchmark — reflects real human preferences, not just academic metrics. Widely considered the most meaningful overall ranking.

顶级模型

1,508

Claude Fable 5

平均评分

1,369

共122个模型

已测试模型

122

指标: Elo rating

人类基准

评分范围: 900–1600

Arena Elo Scores - Top 25 Models

Ranked by Arena Elo score

LMMarketCap.com

模型排名

All models with a reported Arena Elo score, ranked by highest Elo rating.

排名模型评分性能

Claude Fable 5 Anthropic

1,508

87%

1,508

Claude Opus 4.6 Anthropic

1,503

86%

1,503

Gemini 3.1 Pro Google

1,494

85%

1,494

Claude Opus 4.7 Anthropic

1,491

84%

1,491

Gemini 3 Pro Google

1,486

84%

1,486

GPT-5.4 OpenAI

1,485

84%

1,485

GPT-5.2 OpenAI

1,481

83%

1,481

Claude Opus 4.8 Anthropic

1,479

83%

1,479

Gemini 3.5 Flash Google

1,477

82%

1,477

#10

GPT-5.1 OpenAI

1,475

82%

1,475

#10

GPT-5.5 OpenAI

1,475

82%

1,475

#10

GPT-5.2 Chat OpenAI

1,475

82%

1,475

#10

GLM 5.1 Zhipu AI

1,475

82%

1,475

#14

Gemini 3 Flash Google

1,474

82%

1,474

#15

MiMo-V2.5-Pro Xiaomi

1,466

81%

1,466

#16

GPT-5 OpenAI

1,465

81%

1,465

#17

DeepSeek V4 Pro DeepSeek

1,463

80%

1,463

#18

Grok 4 xAI

1,462

80%

1,462

#19

Qwen3.6 Max Preview Alibaba

1,461

80%

1,461

#20

Claude Sonnet 4.6 Anthropic

1,460

80%

1,460

#20

Kimi K2.6 Moonshot AI

1,460

80%

1,460

#22

GLM 5 Zhipu AI

1,457

80%

1,457

#23

Claude Sonnet 4.5 Anthropic

1,452

79%

1,452

#24

Gemma 4 31B Google

1,451

79%

1,451

#25

Claude Opus 4.1 Anthropic

1,449

78%

1,449

#26

MiniMax M3 MiniMax

1,448

78%

1,448

#27

Grok 4.3 xAI

1,446

78%

1,446

#28

Gemini 2.5 Pro Google

1,444

78%

1,444

#28

Qwen3.6 Plus Alibaba

1,444

78%

1,444

#28

Qwen3.5 397B A17B Alibaba

1,444

78%

1,444

#31

GLM 4.7 Zhipu AI

1,443

78%

1,443

#32

Gemma 4 26B A4B Google

1,438

77%

1,438

#33

DeepSeek V4 Flash DeepSeek

1,433

76%

1,433

#33

MiMo-V2.5 Xiaomi

1,433

76%

1,433

#35

Gemini 3.1 Flash Lite Preview Google

1,432

76%

1,432

#36

Claude Opus 4.5 Anthropic

1,430

76%

1,430

#37

GPT-5 Chat OpenAI

1,427

75%

1,427

#38

Mistral Medium 3.5 Mistral AI

1,426

75%

1,426

#39

DeepSeek V3.2 DeepSeek

1,425

75%

1,425

#39

GLM 4.6 Zhipu AI

1,425

75%

1,425

#41

DeepSeek V3.2 Exp DeepSeek

1,423

75%

1,423

#42

Claude Opus 4 Anthropic

1,420

74%

1,420

#43

DeepSeek V3.1 DeepSeek

1,417

74%

1,417

#43

Qwen3.5-122B-A10B Alibaba

1,417

74%

1,417

#43

MiniMax M2.7 MiniMax

1,417

74%

1,417

#46

DeepSeek V3.1 Terminus DeepSeek

1,416

74%

1,416

#47

o3 OpenAI

1,415

74%

1,415

#47

Qwen3 VL 235B A22B Instruct Alibaba

1,415

74%

1,415

#49

Hy3 preview Tencent

1,413

73%

1,413

#50

GLM 4.5 Zhipu AI

1,411

73%

1,411

#51

Qwen3.5-27B Alibaba

1,409

73%

1,409

#52

Qwen3 Next 80B A3B Instruct Alibaba

1,402

72%

1,402

#53

Qwen3.5-Flash Alibaba

1,397

71%

1,397

#54

Qwen3.5-35B-A3B Alibaba

1,396

71%

1,396

#54

Qwen3 VL 235B A22B Thinking Alibaba

1,396

71%

1,396

#56

Gemini 2.5 Flash Google

1,395

71%

1,395

#56

Step 3.5 Flash StepFun

1,395

71%

1,395

#58

MiniMax M2.5 MiniMax

1,391

70%

1,391

#59

GPT-5 Mini OpenAI

1,390

70%

1,390

#60

Claude Sonnet 4 Anthropic

1,387

70%

1,387

#61

GPT-4.1 Mini OpenAI

1,383

69%

1,383

#62

o4-mini OpenAI

1,380

69%

1,380

#62

DeepSeek R1-0528 DeepSeek

1,380

69%

1,380

#64

GLM 4.6V Zhipu AI

1,377

68%

1,377

#65

GLM 4.5 Air Zhipu AI

1,373

68%

1,373

#66

o3-mini OpenAI

1,371

67%

1,371

#67

Qwen3 Next 80B A3B Thinking Alibaba

1,370

67%

1,370

#68

DeepSeek R1 DeepSeek

1,369

67%

1,369

#68

Trinity Large Thinking arcee-ai

1,369

67%

1,369

#70

GLM 4.7 Flash Zhipu AI

1,368

67%

1,368

#71

MiniMax M1 MiniMax

1,364

66%

1,364

#72

o3 Mini High OpenAI

1,363

66%

1,363

#73

Claude 3.7 Sonnet Anthropic

1,354

65%

1,354

#74

GLM 4.5V Zhipu AI

1,353

65%

1,353

#74

gpt-oss-120b OpenAI

1,353

65%

1,353

#76

Gemini 2.0 Flash Google

1,352

65%

1,352

#77

o1 OpenAI

1,350

64%

1,350

#78

Qwen3 8B Alibaba

1,347

64%

1,347

#79

Mercury 2 Inception

1,346

64%

1,346

#79

MiniMax M2 MiniMax

1,346

64%

1,346

#81

DeepSeek V3 (March 2025)DeepSeek

1,345

64%

1,345

#82

Llama 3.3 Nemotron Super 49B V1.5 NVIDIA

1,343

63%

1,343

#83

Grok 3 xAI

1,342

63%

1,342

#84

Nova 2 Lite Amazon

1,337

62%

1,337

#84

GPT-5 Nano OpenAI

1,337

62%

1,337

#86

o1 Preview OpenAI

1,334

62%

1,334

#87

Llama 4 Maverick Meta

1,325

61%

1,325

#88

GPT-4.1 Nano OpenAI

1,322

60%

1,322

#89

DeepSeek V3 DeepSeek

1,318

60%

1,318

#89

GPT-4o-mini (2024-07-18)OpenAI

1,318

60%

1,318

#89

gpt-oss-20b OpenAI

1,318

60%

1,318

#92

Mistral Large 2407 Mistral AI

1,314

59%

1,314

#93

Granite 4.1 8B IBM

1,307

58%

1,307

#94

Olmo 3 32B Think Allen AI

1,305

58%

1,305

#95

o1-mini OpenAI

1,304

58%

1,304

#96

GPT-4.1 OpenAI

1,300

57%

1,300

#97

GPT-4o OpenAI

1,286

55%

1,286

#98

Gemini 1.5 Pro Google

1,281

54%

1,281

#99

Mistral Large 2 Mistral AI

1,280

54%

1,280

#100

GPT-4 OpenAI

1,275

54%

1,275

#101

Claude 3.5 Sonnet Anthropic

1,271

53%

1,271

#102

Qwen 2.5 Coder 32B Alibaba

1,270

53%

1,270

#103

Grok 2 xAI

1,262

52%

1,262

#104

Qwen 2.5 72B Alibaba

1,261

52%

1,261

#104

Command R+Cohere

1,261

52%

1,261

#104

Command A Cohere

1,261

52%

1,261

#104

Claude 3 Haiku Anthropic

1,261

52%

1,261

#108

Phi-4 Microsoft

1,256

51%

1,256

#109

GPT-4 Turbo OpenAI

1,255

51%

1,255

#110

Command R (08-2024)Cohere

1,250

50%

1,250

#111

Llama 3.3 70B Meta

1,243

49%

1,243

#112

Claude Haiku 4.5 Anthropic

1,240

49%

1,240

#113

Claude 3 Opus Anthropic

1,232

47%

1,232

#114

Llama 3.1 405B Meta

1,229

47%

1,229

#115

Llama 3 8B Instruct Meta

1,223

46%

1,223

#116

GPT-4o mini OpenAI

1,222

46%

1,222

#117

Llama 3.1 8B Instruct Meta

1,211

44%

1,211

#118

Llama 3.1 70B Meta

1,198

43%

1,198

#119

Claude 3.5 Haiku Anthropic

1,178

40%

1,178

#120

Llama 3.2 3B Instruct Meta

1,166

38%

1,166

#121

Mixtral 8x22B Mistral AI

1,146

35%

1,146

#122

Llama 3.2 1B Instruct Meta

1,110

30%

1,110

关于 Arena Elo

全名: LMSYS Chatbot Arena Elo Rating
类别: Arena
指标: Elo rating
评分范围: 900–1600
人类基准: 尚未确定
状态: 启用

Frequently Asked Questions

Arena Elo is a standardized evaluation that measures AI model performance on specific tasks. It provides comparable scores across different models, helping developers choose the right model for their needs.

Claude Fable 5 currently holds the top score on the Arena Elo benchmark. See our full rankings table above for the complete leaderboard with 122 models.

We update benchmark data from multiple sources including HuggingFace open-source model leaderboards and LMArena. Scores are refreshed regularly as new evaluations are published and new models are released.

No. While Arena Elo is an important indicator, real-world performance depends on many factors including pricing, latency, context window, and specific task requirements. We recommend using our composite score which weighs multiple benchmarks and practical factors.

LMSYS Chatbot Arena Elo Rating 排行榜

模型排名

关于 Arena Elo

相关基准测试

LMSYS Chatbot Arena Elo Rating 排行榜

模型排名

关于 Arena Elo

相关基准测试