语言模型 由 Anthropic - 发现渠道: data leak + official announcement
Claude Mythos是Anthropic迄今为止最强大的AI模型,属于Opus之上的新"Capybara"层级。通过2026年3月的数据泄露发现,并于2026年4月7日通过Project Glasswing正式预览。目前仅限于防御性网络安全合作伙伴使用。
| 基准测试 | Mythos | Opus 4.6 | 差异 |
|---|---|---|---|
| SWE-bench Pro | 77.8% | 53.4% | +24.4 |
| SWE-bench Verified | 93.9% | 80.8% | +13.1 |
| SWE-bench Multilingual | 87.3% | 77.8% | +9.5 |
| GPQA Diamond | 94.6% | 91.3% | +3.3 |
| Humanity's Last Exam (no tools) | 56.8% | 40% | +16.8 |
| Humanity's Last Exam (with tools) | 64.7% | 53.1% | +11.6 |
| Terminal-Bench 2.0 | 82% | 65.4% | +16.6 |
| USAMO 2026 | 97.6% | 42.3% | +55.3 |
| MMMLU | 92.7% | 91.1% | +1.6 |
| CyberGym | 83.1% | 66.6% | +16.5 |
| OSWorld | 79.6% | 72.7% | +6.9 |
这些分数来自泄露文件,尚未经过独立验证。高亮行表示最大改进。
这些能力目前仅限于通过Project Glasswing审核的防御性网络安全合作伙伴使用。
Found thousands of zero-day vulnerabilities in initial testing, including bugs 1-2 decades old
Generates working exploit code from vulnerability descriptions
Autonomously builds multi-step attack chains across complex systems
Analyzes compiled binaries without access to source code
Performs end-to-end penetration testing with minimal human guidance
Suggests patches and mitigations for discovered vulnerabilities
Anthropic组建了40多个组织的联盟,包括网络安全公司、政府机构和研究实验室,承诺提供高达1亿美元的API积分和400万美元的直接资助。
Security researchers discover ~3,000 unpublished Anthropic assets describing Mythos. Fortune breaks the story.
Anthropic confirms Mythos exists, describes it as a "step change in capabilities" in an internal testing phase.
U.S. officials express concern about offensive cyber capabilities. Axios reports government discussions about AI model safety.
Anthropic announces Project Glasswing partnership framework with 40+ organizations.
Mythos Preview officially launches via Project Glasswing. Restricted to vetted defensive cybersecurity partners.
Public API release - no timeline announced. Expected to include Capybara-tier pricing above Opus.
未公布时间表
预计高于Opus
未公布
泄露文件未指定
未知
泄露文件侧重安全
仅限审核过的网络安全合作伙伴
更多安全组织和研究机构
选定的API客户可能获得访问权限
完整的公共API访问和OpenRouter集成
一旦Claude Mythos通过公共API发布,我们将自动将其添加到排行榜中,并提供完整的评分。
安全研究员Roy Paz(LayerX Security)和Alexandre Pauwels(剑桥大学)于2026年3月26日在一个不安全的数据缓存中发现了约3,000个未发布的Anthropic资产。这些材料将Mythos描述为Opus之上的新层级模型,内部代号为"Capybara"。在Fortune报道泄露事件后,Anthropic确认了其存在。
目前还不行。Mythos目前仅限于Project Glasswing合作伙伴用于网络安全工作。一旦Anthropic通过其公共API提供Mythos,OpenRouter等第三方平台预计会将其添加。当这种情况发生时,我们将自动更新排行榜。尚未公布时间表。
具体的token定价尚未公布。Anthropic在泄露文件中将Mythos描述为"我们提供服务的成本非常高"。它位于Opus 4.6之上的新层级,后者目前价格为输入$5/M和输出$25/M tokens。预计Capybara层级的定价将显著高于Opus。
根据Anthropic的说法,Mythos预览版在初步测试中发现了数千个零日漏洞,包括一些存在一到二十年的关键漏洞。它可以发现漏洞、编写漏洞利用代码、构建攻击链、在没有源代码的情况下分析二进制文件,以及执行自主渗透测试。CEO Dario Amodei指出,它并非专门为网络安全训练 - 其安全能力是从善于编写代码中衍生出来的。