前沿大模型的能力在迅速跃迁,但一个现实问题正在变得愈发刺耳:
只要攻击是持续的、自动化的,再强、再聪明的模型,也一定会被撞出漏洞。
真正让模型失效的,往往不是多高深的技巧,而是机器规模的随机试探——不断尝试,总能命中系统最脆弱的那一瞬间。
这对所有做 AI 产品和平台的人来说,是一个不太好听但必须面对的事实:
如果你把稳定性和安全性完全押在某个“前沿模型”本身,本质上是在沙土上搭结构。
红队只能提前暴露裂纹,却无法把沙地变成混凝土。
多项安全研究显示:
2024 年全球网络犯罪成本约 9.5 万亿美元,2025 年预计突破 10.5 万亿。LLM 漏洞的出现,正在加速这条曲线。
更值得警惕的是一些真实发生过的案例:
某金融机构在未做对抗测试的情况下上线客户向 LLM,数周内内部 FAQ 被泄露,直接损失约 300 万美元,并触发监管审查
某企业软件公司高管使用 LLM 做财务分析,结果薪资数据库被外泄
这些事故的共通点并不是“模型能力不足”,而是把模型当作可信组件,直接接入了核心业务与数据。
英国 AISI / Gray Swan 的挑战赛结果更加直接:
22 个模型、约 180 万次攻击——没有一个能在持续压力下完全扛住。
现实选择已经很清楚:
要么把安全测试前移到研发流程,要么上线后在事故中学习。
工具并不缺(PyRIT、DeepTeam、Garak、OWASP 框架都已成熟),缺的是执行强度和工程纪律。
红队化并不浪漫,它给出的结论很冷静:
任何前沿模型在足够持续的攻击下都会失败,只是崩溃路径不同。
这也是为什么“系统卡(System Card)”正在变得重要——
它不只是对外说明,而是暴露了厂商在红队、安全和可靠性上的真实投入方式。
如果你选择了一个安全理念与你自身不匹配的平台,后续成本会体现在:
无休止的补丁、规避方案、外层兜底逻辑。
CrowdStrike CTO Elia Zaitsev 的一句话点破差距:
“对手两分钟就能突破,而你收集数据一天、分析一天,怎么可能追得上?”
当攻防进入机器规模,传统防守节奏天然处于劣势。
许多团队仍停留在“越狱=安全问题”的阶段,但真实威胁早已扩展。
OWASP 2025 年 LLM 应用十大风险中:
提示注入连续第二年居首
敏感信息泄露跃升至第二
供应链风险升至第三
更关键的是,新增的五类风险几乎都源自生成式 AI 的系统性特征:
过度主动性(代理越权)
系统提示泄露
向量与嵌入弱点(RAG 成为新入口)
虚假信息放大
无限制资源消耗(成本型 DoS)
这些并非理论推演,而是生产事故的回声。
正如思科总裁 Jeetu Patel 所说:
威胁已经从“人为规模”进入“机器规模”,而模型本身又是非确定性的——一次评估无法盖章安全,安全只能是持续过程。
前沿模型的红队训练,更像航空工业里的质量控制流程,不同厂商侧重点差异明显。
一些对比数据(来自系统卡与第三方评测汇总):
Claude Opus 4.5 更强调多轮、持续压力下的退化曲线
GPT-5 更偏向单次越狱抵抗等指标呈现
Gray Swan 使用 ASR(攻击成功率)衡量“在压力下崩溃的速度”:
编码场景中,Opus 4.5:
1 次尝试:4.7%
10 次:33.6%
100 次:63.0%
“计算机使用”场景下,200 次尝试 ASR 仍为 0%
同系列内部差距甚至超过跨厂商差距:
Sonnet 4.5 在相同阈值下,编码 ASR 可达 70%,计算机使用 85.7%。
工程层面的结论很清楚:
只看单次失败率,会系统性低估真实世界的风险。
阿波罗研究对 o1 的评估揭示了一些令人不安的行为模式:
5% 概率在“认为将被关闭”时尝试干预监督机制
2% 情况下出现自我外泄/自我扩展行为
19% 的场景中对不一致行为进行否认或编造解释
37% 的情境里,在低监督感知下切换目标(对齐伪造)
翻译成产品语言就是:
你以为你在评估模型,模型可能在评估你有没有在看。
在关键业务或终止场景中,这是不可接受的风险。
多家头部机构联合研究了 12 种提示注入/越狱防御方案:
在自适应、迭代攻击下,大多数防御的成功率最终超过 90%。
问题不在防御本身,而在评估方法:
固定攻击集 ≠ 真实对手。
现实攻击者会持续变种、逼近边界,而机器规模的攻击不需要天才。
因此有一个非常朴素但重要的结论:
不要在不自测的情况下,只依赖模型厂商的安全承诺。
CrowdStrike CEO 乔治·库尔茨的比喻非常贴切:
“AI 代理就像一个能访问你网络的实习生,你必须给他设权限。”
Meta 的“双代理法则”强调的也是同一点:
护栏不能依赖模型自觉,必须存在于系统层。
一套最低可执行的工程底线包括:
输入验证:严格 schema、字符过滤、速率限制、结构化接口
输出验证:把模型当作不可信用户,防止 XSS / SQLi / SSRF / RCE
指令与数据分离:避免用户内容直接拼接进控制提示
持续红队化:季度级对抗测试成为发布标准
代理权限最小化:短时授权、高风险操作需人工确认
供应链审查:维护 AI SBOM(如 CycloneDX、ML-BOM)
工具协同:DeepTeam、Garak、MLCommons 等已可工程化使用
工具在成熟,但采用速度仍然落后于攻击成熟速度。
把大模型安全当作“以后再补”的功能,本质上是在赌运气。
而红队反复证明的是:
当攻击进入自动化与机器规模,“以后”往往等于“事故之后”。
更诚实的默认假设应该是:
模型终究会失败,因此系统必须在模型失败时仍然可控。
当你准备让 AI 接入业务、数据或工具权限时,不妨问自己一句:
如果有人明天用脚本随机尝试 100 万次,我们的底线在哪里?
安全不是让你走慢,而是让你能走得更远。