这个页面面向 “LLM arena”“Arena Elo leaderboard”“AI arena rankings” 这类搜索意图,集中展示当前最有代表性的对抗型和快速评估榜单。
15
Arena Elo 上榜模型
10
LiveBench 上榜模型
4
Arena 头部服务商
0
Arena 头部开源模型
Human preference rating from 6M+ crowdsourced blind head-to-head comparisons. Users chat with two anonymous models and pick the better response.
| # | 模型 | 服务商 | 分数 |
|---|---|---|---|
| #1 | Claude Opus 4.6 | Anthropic | 1503 |
| #2 | Gemini 3 Pro | 1486 | |
| #3 | GPT-5.4 | OpenAI | 1485 |
| #4 | GPT-5.2 | OpenAI | 1481 |
| #5 | Gemini 3 Flash | 1474 | |
| #6 | GPT-5 | OpenAI | 1465 |
| #7 | Grok 4 | xAI | 1462 |
| #8 | Claude Sonnet 4.6 | Anthropic | 1460 |
| #9 | Claude Sonnet 4.5 | Anthropic | 1452 |
| #10 | Gemini 2.5 Pro | 1444 | |
| #11 | Claude Opus 4.5 | Anthropic | 1430 |
| #12 | Claude Opus 4 | Anthropic | 1420 |
| #13 | o3 | OpenAI | 1415 |
| #14 | Gemini 2.5 Flash | 1395 | |
| #15 | Claude Sonnet 4 | Anthropic | 1387 |
Comprehensive benchmark across 6 categories (math, coding, reasoning, data analysis, instruction following, language) using contamination-resistant, regularly updated questions.
Anthropic
3OpenAI
3xAI
1Arena 类榜单更强调模型之间的实时对抗或快速更新评估,而传统基准测试更像固定题集。两者结合起来更能反映真实竞争格局。
是。这个页面直接读取已聚合的真实 Arena Elo 和 LiveBench 分数,只显示当前本地基准数据集中存在的模型。
因为 “llm arena”“arena elo leaderboard” 这类搜索意图与通用基准页不同,用户想快速看到对抗型榜单而不是完整 benchmark 矩阵。