180 个模型按代码生成排名。 Scored with heavy bonuses for large output (complete files), reasoning (correct logic), large context (project awareness), 流式输出, JSON mode和function calling.
| # | 模型 | 评分 |
|---|---|---|
| 1 | Claude Opus 4.7Anthropic | 95 |
| 2 | GPT-5.5OpenAI | 93 |
| 3 | Gemini 3.1 Pro Preview Custom ToolsGoogle | 92 |
| 4 | Gemini 3.1 Pro PreviewGoogle | 92 |
| 5 | GPT-5.4 ProOpenAI | 92 |
| 6 | GPT-5.4OpenAI | 92 |
| 7 | GPT-5.5 ProOpenAI | 91 |
| 8 | GPT-5.2 ProOpenAI | 91 |
| 9 | Claude Opus 4.6 (Fast)Anthropic | 90 |
| 10 | Claude Opus 4.6Anthropic | 90 |
| 11 | GPT-5.2-CodexOpenAI | 90 |
| 12 | GPT-5.2OpenAI | 90 |
| 13 | GPT-5.3-CodexOpenAI | 89 |
| 14 | GPT-5 ProOpenAI | 89 |
| 15 | Gemini 3 Flash PreviewGoogle | 88 |
| 16 | GPT-5.1-Codex-MaxOpenAI | 88 |
| 17 | GPT-5 CodexOpenAI | 88 |
| 18 | GPT-5OpenAI | 88 |
| 19 | GPT-5.1OpenAI | 87 |
| 20 | GPT-5.1-CodexOpenAI | 87 |
| 21 | GPT-5.1-Codex-MiniOpenAI | 87 |
| 22 | DeepSeek V4 ProDeepSeek | 87 |
| 23 | o3 Deep ResearchOpenAI | 87 |
| 24 | o3 ProOpenAI | 87 |
| 25 | o3OpenAI | 87 |
| 26 | Claude Sonnet 4.6Anthropic | 85 |
| 27 | Claude Opus 4.5Anthropic | 85 |
| 28 | Gemini 2.5 ProGoogle | 84 |
| 29 | Gemini 2.5 Pro Preview 06-05Google | 84 |
| 30 | Gemini 2.5 Pro Preview 05-06Google | 84 |
用自然语言描述需求即可获得生产级代码。大输出模型生成包含方法、类型和文档的完整类。
生成包含路由、模型、控制器和配置的完整项目结构。大上下文理解现有代码库以保持一致的模式。
生成Python、TypeScript、Go、Rust、Java等20+种语言的代码。推理模型理解特定语言的惯用法和最佳实践。
补全不完整的函数、填写TODO注释并扩展现有模式。流式传输在您输入时提供实时代码建议。
在编码基准测试(SWE-bench, HumanEval)中得分最高的模型生成最可靠的代码。关注大输出token(16K+)和推理能力的模型。
顶级模型可以生成完整文件、多文件项目和全栈应用。具有16K+输出token的模型可以生成完整组件而不会截断。
Python、JavaScript/TypeScript和Go拥有最丰富的训练数据,效果最好。Rust、Swift和Kotlin得到良好支持但可能需要更具体的提示。
可以,但需要设置保障措施。使用AI进行初始实现和样板代码,然后通过测试和代码检查进行审查。