180 个模型按测试排名。 评分包含以下额外加分: reasoning (test logic), large context (codebase analysis), large output (test suite generation), JSON mode (structured fixtures), function calling和流式输出.
| # | 模型 | 评分 |
|---|---|---|
| 1 | Claude Opus 4.7Anthropic | 95 |
| 2 | GPT-5.5OpenAI | 93 |
| 3 | Gemini 3.1 Pro Preview Custom ToolsGoogle | 92 |
| 4 | Gemini 3.1 Pro PreviewGoogle | 92 |
| 5 | GPT-5.4 ProOpenAI | 92 |
| 6 | GPT-5.4OpenAI | 92 |
| 7 | GPT-5.5 ProOpenAI | 91 |
| 8 | GPT-5.2 ProOpenAI | 91 |
| 9 | Claude Opus 4.6 (Fast)Anthropic | 90 |
| 10 | Claude Opus 4.6Anthropic | 90 |
| 11 | GPT-5.2-CodexOpenAI | 90 |
| 12 | GPT-5.2OpenAI | 90 |
| 13 | GPT-5.3-CodexOpenAI | 89 |
| 14 | GPT-5 ProOpenAI | 89 |
| 15 | Gemini 3 Flash PreviewGoogle | 88 |
| 16 | GPT-5.1-Codex-MaxOpenAI | 88 |
| 17 | GPT-5 CodexOpenAI | 88 |
| 18 | GPT-5OpenAI | 88 |
| 19 | GPT-5.1OpenAI | 87 |
| 20 | GPT-5.1-CodexOpenAI | 87 |
| 21 | GPT-5.1-Codex-MiniOpenAI | 87 |
| 22 | DeepSeek V4 ProDeepSeek | 87 |
| 23 | o3 Deep ResearchOpenAI | 87 |
| 24 | o3 ProOpenAI | 87 |
| 25 | o3OpenAI | 87 |
| 26 | Claude Sonnet 4.6Anthropic | 85 |
| 27 | Claude Opus 4.5Anthropic | 85 |
| 28 | Grok 4.20xAI | 89 |
| 29 | Gemini 2.5 ProGoogle | 84 |
| 30 | Gemini 2.5 Pro Preview 06-05Google | 84 |
从源代码生成全面的单元、集成和端到端测试。推理模型理解边界情况、边界条件和错误路径。
分析代码中的潜在Bug、竞态条件和安全漏洞。大上下文处理完整代码库以进行跨模块分析。
生成真实的测试数据、模拟对象和API固件。JSON模式生成与测试框架兼容的结构化数据。
编写Selenium、Playwright和Cypress脚本。函数调用支持测试编排和CI/CD流水线集成。
推理模型分析代码以识别边缘情况、边界条件和手动测试常遗漏的故障模式。它们生成单元测试、集成测试和端到端测试场景。
AI生成在现有框架中运行的测试代码。传统工具执行测试。两者互补 - AI创建测试,框架运行它们。AI还帮助在代码变更时更新测试。
模型在实现之前从需求生成失败测试,遵循红-绿-重构循环。推理确保测试捕获预期行为,而非仅当前实现。
推理用于识别边缘情况。大上下文用于理解跨模块的测试依赖。函数调用用于运行测试和分析结果。