近日,一款被认为属于Anthropic下一代体系的新模型在小范围测试阶段意外流出,引发AI安全研究圈广泛关注。
据多名研究人员透露,2026年6月3日前后,一个名为“claude-oceanus-v1-p”的模型标识突然出现在Claude控制台相关环境中。随后,部分未经授权的API代理渠道开始提供该模型访问权限,使其在正式公开评测前便已进入灰色传播阶段。
这一情况迅速引发外界猜测。业内普遍认为,Anthropic或正在推进Claude Mythos系列后续版本,而部分获得红队测试资格的研究人员也表示,他们当天已经接触到了该模型的早期实例。

原本属于受控范围内的红队评估仅维持了极短时间。消息称,在模型向部分安全研究成员开放数小时后,就有人通过第三方代理平台高价出售API调用权限,甚至出现了远高于企业官方价格体系的Token计费方案。
事实上,Anthropic此前已多次遭遇代理滥用问题。早在2026年初,该公司便曾公开指出,包括DeepSeek、Moonshot AI以及MiniMax在内的多家AI机构,疑似借助大量虚假账号绕过限制,通过代理渠道对Claude系列模型进行了大规模调用。
此次Oceanus事件发生后,Anthropic据称已经临时暂停了更大范围的红队访问权限,并启动内部调查,以追踪模型泄露路径及代理来源。
从目前披露的信息来看,Oceanus-v1-p被认为建立在2026年4月推出的Claude Mythos Preview基础之上。
而Mythos Preview此前已经因其在网络安全方向展现出的强大能力而备受关注。根据Anthropic Frontier红队测试资料,该模型在受限环境下能够识别并利用主流操作系统与浏览器中的高危漏洞。
参与相关项目的Glasswing合作团队表示,自测试计划启动以来,研究人员累计发现超过一万项高危及严重安全漏洞。
此外,图灵研究所披露的数据还显示,在公开测试案例中,Mythos体系对漏洞修复建议的有效率超过99%,这一结果也进一步加剧了外界对前沿AI安全边界的讨论。
就在Oceanus测试消息传出前一天,Anthropic刚刚宣布扩大Project Glasswing项目规模。
新增合作对象覆盖印度、法国、德国、韩国、澳大利亚等十余个国家,并首次将电力、水务、医疗、通信等关键基础设施行业纳入测试体系。

相比项目最初主要面向大型科技企业,此次扩展意味着Anthropic正在将AI网络防御能力推向更高风险、更广泛的现实场景。
Anthropic方面也承认,对于许多新加入的合作机构而言,一旦遭遇成功网络攻击,影响范围可能达到上亿用户。因此,在尚未建立足够可靠的防滥用机制之前,公司不会向公众开放Mythos级别及其衍生模型的完整能力。
该公司同时坦言,目前整个行业仍缺乏真正成熟且可验证的AI安全防护体系。