181 个模型按机器学习排名。 评分包含以下额外加分: reasoning (architecture decisions), large context (reading full codebases), large output (complete implementations), JSON mode和function calling.
| # | 模型 | 评分 |
|---|---|---|
| 1 | Claude Opus 4.7Anthropic | 95 |
| 2 | GPT-5.5OpenAI | 93 |
| 3 | Gemini 3.1 Pro Preview Custom ToolsGoogle | 92 |
| 4 | Gemini 3.1 Pro PreviewGoogle | 92 |
| 5 | GPT-5.4 ProOpenAI | 92 |
| 6 | GPT-5.4OpenAI | 92 |
| 7 | GPT-5.5 ProOpenAI | 91 |
| 8 | GPT-5.2 ProOpenAI | 91 |
| 9 | Claude Opus 4.6 (Fast)Anthropic | 90 |
| 10 | Claude Opus 4.6Anthropic | 90 |
| 11 | GPT-5.2-CodexOpenAI | 90 |
| 12 | GPT-5.2OpenAI | 90 |
| 13 | GPT-5.3-CodexOpenAI | 89 |
| 14 | GPT-5 ProOpenAI | 89 |
| 15 | Gemini 3 Flash PreviewGoogle | 88 |
| 16 | GPT-5.1-Codex-MaxOpenAI | 88 |
| 17 | GPT-5 CodexOpenAI | 88 |
| 18 | GPT-5OpenAI | 88 |
| 19 | GPT-5.1OpenAI | 87 |
| 20 | GPT-5.1-CodexOpenAI | 87 |
| 21 | GPT-5.1-Codex-MiniOpenAI | 87 |
| 22 | DeepSeek V4 ProDeepSeek | 87 |
| 23 | o3 Deep ResearchOpenAI | 87 |
| 24 | o3 ProOpenAI | 87 |
| 25 | o3OpenAI | 87 |
| 26 | Claude Sonnet 4.6Anthropic | 85 |
| 27 | Claude Opus 4.5Anthropic | 85 |
| 28 | Grok 4.20xAI | 89 |
| 29 | Gemini 2.5 ProGoogle | 84 |
| 30 | Gemini 2.5 Pro Preview 06-05Google | 84 |
设计神经网络架构、选择超参数和确定训练策略。推理模型分析模型复杂度与性能之间的权衡。
生成PyTorch、TensorFlow和scikit-learn代码,包括训练管线、数据加载器、自定义层和评估脚本。大输出生成完整实现。
分析实验结果、建议后续步骤和记录发现。JSON模式为MLflow、W&B和Neptune等工具构建实验元数据。
创建模型服务配置、编写用于推理的Docker/Kubernetes清单和构建监控仪表板。函数调用与部署API集成。
可以,模型生成PyTorch、TensorFlow和scikit-learn代码。推理有助于超参数选择、架构设计和调试收敛问题。
AI模型补充MLOps工具。它们编写在MLflow、Kubeflow和SageMaker等平台上运行的代码。使用AI进行实验设计和代码生成。
推理模型从原始数据描述中识别有用特征、建议转换并生成预处理代码。它们理解统计概念并建议适当的技术。
大上下文窗口的模型可以处理整篇研究论文并生成实现代码。推理帮助理解新颖的架构和损失函数。网络搜索访问arXiv上的最新论文。