近日,Anthropic发布了全新的 Claude Fable 5。这是其 Mythos 能力层级中首个面向公众开放的AI模型,也被外界视为Claude产品线的一次重要升级。
与此前大家更熟悉的Claude Opus系列相比,Fable 5的定位更高,主打复杂推理、长上下文处理、多步骤任务执行以及更强的Agent能力。尤其值得注意的是,Anthropic在介绍这款模型时,反复强调了一个关键词:
网络安全防护。
这意味着,Fable 5并不只是一次普通的模型性能升级,而是Anthropic围绕“高能力AI如何安全开放”给出的一次新尝试。
按照Anthropic的说法,Claude Fable 5属于全新的 Mythos能力层级。
这一层级的模型,主要面向更复杂、更长流程、更高难度的任务场景。例如:
复杂代码分析
多步骤任务规划
长文档理解与处理
自动化Agent执行
网络安全场景下的漏洞分析与风险识别
相比传统聊天型AI,Mythos级模型更强调“连续完成任务”的能力。也就是说,它不仅能够回答问题,还可以围绕一个目标持续拆解步骤、执行分析、调整策略,并在较长任务链中保持上下文一致性。
这类能力对企业用户、开发者和安全团队来说,价值非常明显。
例如在软件开发场景中,它可以帮助分析复杂项目结构、排查代码缺陷、生成修复建议;在企业运维场景中,它可以协助梳理日志、识别异常、定位系统风险;在安全防护场景中,它也可以辅助安全团队完成漏洞验证、威胁分析和防御方案设计。
但能力越强,风险也越高。
Fable 5之所以受到关注,一个重要原因是它具备更强的网络安全分析能力。
据介绍,Mythos级模型能够在软件漏洞发现、攻击链分析、利用思路推演等方面表现出更强能力,甚至可以执行所谓的 Agentic hacking。
简单来说,Agentic hacking指的是AI不再只是回答某一个单点问题,而是能够把多个环节串联起来,形成连续任务流程。
例如:
从目标侦察开始,
到漏洞发现,
再到利用方式分析,
进一步到权限提升、横向移动、攻击路径规划等。
这类能力如果用于合法防御,可以帮助企业更快发现风险、验证漏洞、提升安全响应效率。
但如果被恶意使用,也可能被用于攻击规划、漏洞利用开发、绕过检测、自动化入侵等高风险行为。
这也是为什么Anthropic在发布Fable 5时,把安全机制放在了非常重要的位置。
面对高能力模型带来的安全挑战,Anthropic并没有简单采用“遇到风险就拒绝回答”的方式。
它采用的是一种更细分的处理机制:
先识别请求风险,再决定由哪个模型处理。
当系统检测到用户请求可能涉及高风险内容时,例如攻击性网络安全任务、生物化学风险内容,或者模型蒸馏相关请求,系统会自动触发分类器判断。
如果判断结果显示风险较高,请求就不会继续由Fable 5完整能力处理,而是会被转交给能力相对受限的模型,例如Claude Opus 4.8。
这种方式的核心思路是:
不是完全禁止用户讨论网络安全,而是限制高风险能力被滥用。
对于正常的安全研究、防御分析、漏洞修复和合规测试场景,用户仍然可以使用模型能力;但如果请求明显偏向攻击性、规避检测或自动化利用,系统就会进行降级处理。
同时,Anthropic还表示,当触发降级机制时,系统会向用户进行透明提示,让用户知道当前会话已经被安全策略接管,而不是在后台悄悄改变模型行为。

为了降低模型被滥用的风险,Anthropic对分类器采取了相对保守的策略。
这意味着,一些本身无害的请求,也可能会被误判为高风险内容。
例如某些合法的安全测试、漏洞复现讨论、攻防演练方案,可能因为措辞较敏感而被系统降级处理。
不过Anthropic表示,实际触发降级的比例低于5%。也就是说,超过95%的会话仍然可以调用Fable 5的完整能力。
从产品设计角度来看,这是一种在“能力开放”和“安全控制”之间做平衡的方案。
一方面,Anthropic希望让用户真正用到Mythos级模型的高性能;另一方面,它又不希望这种能力被直接用于高风险攻击任务。
对于AI厂商来说,这类平衡会越来越重要。
因为未来的AI模型能力越强,越不能只看跑分和推理能力,还要看它在复杂任务场景中的安全边界是否足够可靠。
在发布前,Anthropic对Fable 5进行了多轮安全测试。
测试重点主要集中在几个方向:
能否识别攻击性网络安全请求;
能否阻断长流程攻击任务推进;
能否抵御公开越狱技巧;
能否在多轮对话中保持安全边界;
能否避免被诱导生成高风险攻击内容。
据称,Anthropic内部评估显示,分类器能够有效阻止攻击性任务继续推进。
此外,外部漏洞赏金计划也进行了超过1000小时的测试,暂未发现通用越狱方法。长期Agentic任务测试中,红队机构同样没有突破其防护体系。
不过,英国AI安全研究所在短期测试窗口中取得了初步越狱进展。这也说明,哪怕防护能力已经大幅提升,高能力AI模型依然不可能做到绝对安全。
安全机制本身,也需要随着外部攻击方式不断升级。
除了Claude Fable 5,Anthropic还同步推出了 Claude Mythos 5。
两者基于相同核心模型,但开放策略不同。
Fable 5面向普通开发者和公众用户,因此内置了更严格的网络安全限制。
而Mythos 5则主要面向经过认证的网络安全防御团队、关键基础设施服务商以及可信机构开放。在这类场景下,模型可以解除部分网络安全限制,用于更深入的防御分析和安全研究。
这种设计类似于“分级开放”:
普通用户使用更安全的版本;
可信安全团队使用能力更完整的版本;
高风险能力通过认证机制进行控制。
Anthropic还提到,Mythos 5将率先通过与美国政府合作的相关项目进行部署,后续再通过可信访问计划逐步扩大适用范围。
这也说明,AI厂商正在尝试把高能力模型从“完全公开访问”转向“按场景、按身份、按风险分层开放”。
在商业化方面,Claude Fable 5和Claude Mythos 5采用相同定价:
输入:每百万token 10美元
输出:每百万token 50美元
这个价格明显面向中高端应用场景,更适合企业级复杂任务、长文档处理、代码分析、安全研究和Agent工作流,而不是普通轻量问答。
同时,Anthropic也更新了Mythos级模型的数据保留政策。
相关流量数据将保留30天,主要用于安全目的,包括:
识别新型越狱方式;
检测多请求攻击行为;
分析误报情况;
优化安全分类器表现。
Anthropic强调,这些数据不会用于模型训练。
对于企业用户来说,这一点非常关键。因为高能力AI模型通常会处理代码、系统日志、漏洞报告、内部文档等敏感内容,数据是否用于训练、保留多久、保留目的是什么,都会直接影响企业是否愿意接入。
Claude Fable 5的发布,反映出一个明显趋势:
AI模型竞争正在从单纯比拼能力,转向“能力 + 安全 + 可控开放”的综合竞争。
过去,行业更多关注模型是否更聪明、上下文是否更长、代码能力是否更强、推理成绩是否更高。
但随着模型逐渐具备Agent能力,尤其是在网络安全、自动化开发、数据分析等高风险场景中,厂商必须回答一个新的问题:
当AI足够强时,如何防止它被滥用?
Fable 5给出的方案,是通过分类器、模型分流、透明提示、可信访问和数据安全策略来降低风险。
这种路线不一定完美,但代表了AI模型商业化进入深水区之后,一个必须面对的新方向。
Claude Fable 5并不是一次简单的模型升级。
它背后真正值得关注的,是高能力AI如何在开放能力和控制风险之间寻找平衡。
对于普通用户来说,Fable 5意味着更强的复杂任务处理能力;对于开发者来说,它可能带来更高效的代码、文档和Agent工作流;对于网络安全行业来说,它则代表AI正在更深地进入攻防体系。
未来,高性能AI模型的竞争,不会只看谁的参数更强、跑分更高。
更重要的是:
谁能在释放能力的同时,把风险控制在可接受范围内。
这或许才是Claude Fable 5发布背后,真正值得关注的地方。