这个页面面向 “LLM arena”“Arena Elo leaderboard”“AI arena rankings” 这类搜索意图,集中展示当前最有代表性的对抗型和快速评估榜单。
15
Arena Elo 上榜模型
10
LiveBench 上榜模型
3
Arena 头部服务商
2
Arena 头部开源模型
Human preference rating from 6M+ crowdsourced blind head-to-head comparisons. Users chat with two anonymous models and pick the better response.
| # | 模型 | 服务商 | 分数 |
|---|---|---|---|
| #1 | Claude Opus 4.6 | Anthropic | 1503 |
| #2 | Gemini 3.1 Pro Preview | 1494 | |
| #3 | Gemini 3.1 Pro | 1494 | |
| #4 | Claude Opus 4.7 | Anthropic | 1491 |
| #5 | Gemini 3 Pro | 1486 | |
| #6 | GPT-5.4 | OpenAI | 1485 |
| #7 | GPT-5.2 | OpenAI | 1481 |
| #8 | GPT-5.2 Chat | OpenAI | 1477 |
| #9 | GPT-5.1 | OpenAI | 1475 |
| #10 | GPT-5.5 | OpenAI | 1475 |
| #11 | Gemini 3 Flash | 1474 | |
| #12 | GLM 5.1 开源 | Zhipu AI | 1471 |
| #13 | Grok 4.1 Fast | xAI | 1467 |
| #14 | GPT-5 | OpenAI | 1465 |
| #15 | MiMo-V2.5-Pro 开源 | Xiaomi | 1465 |
Comprehensive benchmark across 6 categories (math, coding, reasoning, data analysis, instruction following, language) using contamination-resistant, regularly updated questions.
OpenAI
5Anthropic
2Arena 类榜单更强调模型之间的实时对抗或快速更新评估,而传统基准测试更像固定题集。两者结合起来更能反映真实竞争格局。
是。这个页面直接读取已聚合的真实 Arena Elo 和 LiveBench 分数,只显示当前本地基准数据集中存在的模型。
因为 “llm arena”“arena elo leaderboard” 这类搜索意图与通用基准页不同,用户想快速看到对抗型榜单而不是完整 benchmark 矩阵。