AI测试工具

180 个模型按测试排名。评分包含以下额外加分： reasoning (test logic), large context (codebase analysis), large output (test suite generation), JSON mode (structured fixtures), function calling和流式输出.

排名方式: 基于基准测试分数(90%)来自MMLU、GPQA、HumanEval、SWE-bench等15+标准化评估，能力和上下文窗口作为辅助排序(10%)。

#1 测试

180

总排名

180

推理

167

128K+上下文

149

16K+输出

AITesting模型 - 按评分排名

#	模型	提供商	评分	$/百万输出	最大输出	上下文
1	Claude Opus 4.7Anthropic	Anthropic	95	$25.00	128K	1M
2	GPT-5.5OpenAI	OpenAI	93	$30.00	128K	1.1M
3	Gemini 3.1 Pro Preview Custom ToolsGoogle	Google	92	$12.00	66K	1.0M
4	Gemini 3.1 Pro PreviewGoogle	Google	92	$12.00	66K	1.0M
5	GPT-5.4 ProOpenAI	OpenAI	92	$180.00	128K	1.1M
6	GPT-5.4OpenAI	OpenAI	92	$15.00	128K	1.1M
7	GPT-5.5 ProOpenAI	OpenAI	91	$180.00	128K	1.1M
8	GPT-5.2 ProOpenAI	OpenAI	91	$168.00	128K	400K
9	Claude Opus 4.6 (Fast)Anthropic	Anthropic	90	$150.00	128K	1M
10	Claude Opus 4.6Anthropic	Anthropic	90	$25.00	128K	1M
11	GPT-5.2-CodexOpenAI	OpenAI	90	$14.00	128K	400K
12	GPT-5.2OpenAI	OpenAI	90	$14.00	128K	400K
13	GPT-5.3-CodexOpenAI	OpenAI	89	$14.00	128K	400K
14	GPT-5 ProOpenAI	OpenAI	89	$120.00	128K	400K
15	Gemini 3 Flash PreviewGoogle	Google	88	$3.00	66K	1.0M
16	GPT-5.1-Codex-MaxOpenAI	OpenAI	88	$10.00	128K	400K
17	GPT-5 CodexOpenAI	OpenAI	88	$10.00	128K	400K
18	GPT-5OpenAI	OpenAI	88	$10.00	128K	400K
19	GPT-5.1OpenAI	OpenAI	87	$10.00	128K	400K
20	GPT-5.1-CodexOpenAI	OpenAI	87	$10.00	128K	400K
21	GPT-5.1-Codex-MiniOpenAI	OpenAI	87	$2.00	128K	400K
22	DeepSeek V4 ProDeepSeek	DeepSeek	87	$0.87	384K	1.0M
23	o3 Deep ResearchOpenAI	OpenAI	87	$40.00	100K	200K
24	o3 ProOpenAI	OpenAI	87	$80.00	100K	200K
25	o3OpenAI	OpenAI	87	$8.00	100K	200K
26	Claude Sonnet 4.6Anthropic	Anthropic	85	$15.00	128K	1M
27	Claude Opus 4.5Anthropic	Anthropic	85	$25.00	64K	200K
28	Grok 4.20xAI	xAI	89	$2.50	null	2M
29	Gemini 2.5 ProGoogle	Google	84	$10.00	66K	1.0M
30	Gemini 2.5 Pro Preview 06-05Google	Google	84	$10.00	66K	1.0M

AI-Powered Software Testing

Test Case 生成

从源代码生成全面的单元、集成和端到端测试。推理模型理解边界情况、边界条件和错误路径。

缺陷检测

分析代码中的潜在Bug、竞态条件和安全漏洞。大上下文处理完整代码库以进行跨模块分析。

Test Data & Fixtures

生成真实的测试数据、模拟对象和API固件。JSON模式生成与测试框架兼容的结构化数据。

QA 自动化

编写Selenium、Playwright和Cypress脚本。函数调用支持测试编排和CI/CD流水线集成。

AI测试工具

AITesting模型 - 按评分排名

AI-Powered Software Testing

Test Case 生成

缺陷检测

Test Data & Fixtures

QA 自动化

相关页面

AI测试工具

AITesting模型 - 按评分排名

AI-Powered Software Testing

Test Case 生成

缺陷检测

Test Data & Fixtures

QA 自动化

相关页面