智能体安全：从单点到运行时治理

2026-04-03 10:39 作者：数掘云算 阅读量：159

智能体安全：从单点检测走向运行时治理

近几个月，以 OpenClaw 为代表的工具增强型智能体引发了不少安全讨论：提示注入、工具滥用、信息泄露、权限越界、恶意网页内容污染上下文等问题层出不穷。但如果把这些风险放到真实运行环境中观察，会发现一个更深层的现实——智能体的威胁早已不局限于“用户输入”这一个入口。

一段恶意指令可能来自用户对话，也可能来自网页抓取内容、工具返回值、中间态文件，甚至来自被篡改后的本地控制文件执行链路。PRISM 论文的核心价值正在于此：当 OpenClaw 从“对话模型”进化为“能调用工具、读写文件、发送消息、持续运行的系统”之后，安全应当如何设计？

PRISM 的贡献不在于提出了新的检测模型，而在于给出了一个更贴近真实部署的答案：将智能体安全从“单点检测”升级为“运行时治理”。

传统过滤手段的局限

当前主流思路仍沿用大模型安全的旧模式：入口做输入检测，出口做内容审核。这种做法固然有效，但对 OpenClaw 这类系统已显不足。论文在威胁模型中明确指出：风险可能贯穿用户消息、外部抓取内容、中间 prompt 构造、工具调用参数、工具返回值、对外消息发送以及本地控制文件——攻击面是分布式的，整个运行时链路都可能成为突破口。

例如，恶意提示不一定要直接出现在用户输入中，它可以藏在网页正文里，等智能体抓取后进入上下文；也可以藏在 API 返回值中，作为“工具结果”进入后续推理；甚至不是一次性强攻击，而是在多轮交互中持续释放低强度异常信号，最终将智能体导向危险动作。论文特别强调这类“长程风险升级”问题：单个检查点上的信号往往并不明显，但串联起来看，整体风险已足够高。这正是单点检测最容易失效的场景。

换言之，OpenClaw 的安全问题已不再是“模型是否说了不当内容”，而是“系统是否在错误的时间、对错误的内容、开放了错误的能力”。这也是 PRISM 不单纯叠加分类器，而是重新设计运行时防护框架的动因。

核心思路：不改上游，外挂运行时安全层

PRISM 提出了一个务实的工程原则：zero-fork。所谓 zero-fork，并非完全不改动，而是尽量不 fork OpenClaw 上游代码，不将安全逻辑硬塞进主框架，而是通过进程内插件加可选 sidecar 服务，将安全能力“挂载”到现有网关上。论文将此视为核心贡献之一——因为一旦安全方案依赖修改上游源码，就会面临版本同步、维护负担和部署复杂度的问题。上游一升级，安全层就得重构，最终往往沦为实验室可跑、生产不可用的状态。

PRISM 的整体架构清晰明了。插件置于系统中心，直接在 OpenClaw 网关内部注册生命周期钩子，负责观察和拦截关键执行节点。插件外围再挂载几类 sidecar：scanner 用于可疑内容扫描，proxy 用于工具调用治理，dashboard 负责审计和策略运营，monitor 负责监控选定本地文件的完整性。插件贴近运行时，sidecar 承接更重的治理和运营能力，既能在实际执行路径上做拦截，又不至于把所有逻辑塞进主进程的关键路径中。

从代码实现看，这不是一个纯概念方案。仓库包含七个主要包：dashboard、plugin、proxy、shared、cli、scanner 和 monitor，分别承担审计与配置、十个生命周期钩子与风险累积、工具治理、共享安全逻辑、运维入口、启发式加 LLM 扫描、以及本地文件完整性监控等职责。换言之，作者并非空谈“未来可以这么做”，而是已构建出一套具备初步可部署形态的运行时层。

防范一整条执行链

PRISM 最关键的设计在于将防护分散到整个智能体生命周期，而非仅在首尾设卡。十个生命周期钩子覆盖了消息进入、prompt 构造、工具执行、工具结果持久化、对外消息发送、子智能体生成、会话结束以及网关启动等阶段。其目标不是在某一点上做到百分之百识别，而是在整条运行链路上形成层层递进的防线。

入口阶段，PRISM 先检查用户消息和早期上下文。若累积风险已足够高，它会在 prompt 构造前向模型注入一段安全提示，提醒模型不要盲目服从来自抓取页面或工具结果中的嵌入指令。这个动作很有代表性：PRISM 不单纯“拦截”，而是先通过上下文重写和安全提醒降低模型被误导的概率。

真正的强约束发生在执行前阶段，即 before_tool_call。论文将其称为“principal synchronous interception point”——最核心的同步拦截点。在这里，PRISM 可以阻断高风险工具、限制可执行命令、检查命令前缀和危险模式、识别 shell 元字符和 trampoline 形式的绕过，还能对私网访问、域名分级等做控制。也就是说，一旦系统判定会话已进入高风险态，它就不再只是“提醒模型注意”，而是直接收窄智能体可调用的能力范围。

工具执行之后，PRISM 继续在结果返回和持久化阶段做检查。它对可疑工具结果进行扫描、风险更新，必要时做持久化阶段的内容编校，防止恶意内容或敏感数据被写回系统，成为后续回合的污染源。这一点至关重要，因为很多智能体事故并非当场爆发，而是先写入中间态，之后某个环节再被重新利用。PRISM 显然已意识到这种“状态污染”问题。

在外发阶段，PRISM 设置了 before_message_write 和 message_sending 两个点。前者是写出前的最后一次文本净化，后者叠加了两类控制：一是基于秘密模式的出站 DLP 检查，二是基于对话风险值的外发阻断。这意味着，即便前面的检测有所遗漏，内容真正发出时系统仍有最后一道刹车。对于凭证泄露、敏感数据外发等风险，这种末端兜底十分必要。

最后，PRISM 还将会话结束、子智能体生成和网关启动纳入治理范围。它可以在风险过高时阻止子智能体生成，也可以在系统重启时恢复和校验部分状态，使防护不只停留在单轮对话的瞬时动作，而是具备持续性和恢复性。这一设计表明，作者并未将安全理解为一次性的规则命中，而是视作持续运行系统的运营问题。

风险累积而非一次判定

PRISM 的另一关键点在于，它不将安全判断设计为一次性二元分类，而是引入会话级和对话级的风险累积机制。系统维护 session-level 和 conversation-level 两种范围的风险状态，并为每条风险项设置 TTL，使风险随时间衰减。这样做的好处显而易见：系统不必将每一个可疑信号都立即升级到阻断程度，但又能识别那些分散在多轮、多工具、多次外部交互中的持续异常模式。

这一思路比许多现有智能体防护方案更为成熟。现实中的攻击往往不是“一句话就露馅”，更常见的是攻击者通过几轮看似正常的操作，逐步将智能体推向危险方向。单轮看都不严重，串联起来却很危险。PRISM 正是基于这一判断，设计了带阈值的分级响应：低风险时加入安全提示，中风险时限制高危工具，高风险时进一步阻止子智能体生成或外发行为。它不是非黑即白的“一票否决”，而是逐级收紧的运行时控制逻辑。

从安全运营的角度看，这一设计意义重大——它将智能体安全从“文本审核思维”转向了“风控思维”。关注的不是某条文本是否有毒，而是当前会话处于什么风险态、系统应赋予多大权限、下一步能否继续执行。这才是企业真正需要的智能体治理框架。

本质是治理编排

需要强调，PRISM 并非检测算法论文。作者明确表示，它没有提出新的检测模型，而是整合了一条混合式启发加 LLM 扫描的流水线。这个结构很务实。

扫描链路首先做规范化处理：包括 Unicode NFKC 归一化、有限百分号解码、去零宽字符、压平格式噪声等。然后运行加权规则，识别常见注入或滥用模式，如指令覆盖、系统提示外泄、凭证外泄、工具滥用、角色覆盖、格式令牌注入以及某些混淆特征。仅当启发式层判断为“可疑”后，才进一步调用远程扫描服务。

这种做法的价值在于，它并未将整个防护建立在一个重模型之上。启发式层低延迟、可复用、可嵌入多个钩子；LLM 辅助层只在高价值、低频次的路径上触发。因此，PRISM 的重点不在“分类器多强”，而在“这套检测能力如何嵌入整条执行链，并与风险引擎、工具治理、审计恢复联动”。概括而言，PRISM 做的不是检测技术的突破，而是运行时治理的编排。

工具、网络与审计的三重治理

许多智能体安全论文停留在提示注入层面，而 PRISM 难得地将工具治理和运营治理置于核心位置。论文专门用一节论述 tool, network, and audit governance，意在表明：对工具型智能体而言，真正的风险不单是“模型被提示注入”，更是“模型在被误导后还能执行什么动作”。

在工具治理上，PRISM 不只看工具名称，还进一步检查执行命令的前缀、已知危险模式、shell 元字符，以及通过看似正常的工具包装任意 shell 执行的 trampoline 形式。论文还提到了对 Git SSH override 等绕过模式的专门处理。这一思路非常现实：攻击者往往不会直接调用名为“危险执行”的工具，而是借助灰色路径将恶意命令伪装进普通工具参数中。PRISM 的治理逻辑，本质上是在做能力面约束，而非单纯的文本理解。

在路径治理上，PRISM 对选定的敏感路径做规范化路径检查，允许通过策略更新设定例外，但不自称是完整的文件系统沙箱。论文对此很坦诚：它解决的是已知敏感路径的实用防护，而非通用的操作系统隔离。这个界限划得清楚，反而更可信。

在网络与外发治理上，PRISM 同时做私网拦截、域名分级处理和基于秘密模式的 DLP 检查。作者强调，泄露风险通常同时包含“往哪里发”和“发什么内容”两个维度，不能只做目的地治理，也不能只做载荷检查，必须二者结合。这符合现实世界数据外流防护的逻辑。

在审计层面，PRISM 提供了带链式记录的防篡改审计平面，并支持完整性校验、组件健康检查、热更新策略和仪表板审批工作流。换句话说，它不只拦截攻击，还考虑了运营人员后续如何查、如何调、如何放行、如何恢复。许多论文只讲防护不讲运营，而企业落地时往往首先关心后者——PRISM 在这方面是加分项。

评测结果的两面性

PRISM 的评测设计思路值得肯定。论文没有简单给出一个“准确率”数字，而是围绕五个研究问题展开评估：安全有效性、误报、分层贡献、运行时开销和运营恢复性。它还设计了从 No PRISM 到 Full PRISM 的基线阶梯，包括无防护、仅启发式、仅插件、插件加扫描器、以及完整 PRISM 五层配置。这种评估方式更适合分层防御系统，能够看出每一层具体贡献了什么。

但也要说明，论文目前给出的结果仍是初步的基准测试。作者在摘要和正文中均未将其包装成“已完成大规模真实环境验证”的系统，而是明确表示目前主要是可控的同切片实验和运营微基准测试。换言之，它更多是在证明“这套系统已实现，关键部件可以工作”，而非“已在复杂生产环境中充分验证”。这一点需要看清。

开销数据尤其说明问题。论文的开销概览中，仅启发式和仅插件的平均延迟都较低，但一旦进入 scanner 路径，p95 和 p99 延迟显著升高。Full PRISM 的基准路径数据显示，平均值约 1.799 毫秒，但 p95 达到 15774.620 毫秒，p99 达到 20045.816 毫秒；插件加 scanner 的 p95 也高达 12498.437 毫秒。作者解释，这些数字主要反映本地 scanner 路径带来的尾延迟，而非部署级服务延迟本身。但这个现象揭示了一个现实问题：只要将 LLM 辅助扫描放在在线链路中，尾延迟就极易失控。这套架构方向正确，但要成为生产级系统，scanner 的触发率控制、异步化、缓存和降级机制都还需进一步打磨。

局限性与启发

PRISM 并未声称解决智能体安全的全部问题。论文专门列出了不在范围内的内容：模型投毒、训练阶段污染、模型内部任意失陷、主机完全被攻破、内核级和硬件级攻击、通用供应链攻击，均不属于它的防护范畴。它也不是完整的操作系统沙箱，不是所有进程的通用出站防火墙。PRISM 的定位非常明确：它只是一层挂载在智能体网关上的运行时安全层。它能提升可检测性、可中断性、可审计性，但不是整个系统的唯一安全边界。

此外，它本身也是框架相关的。论文坦言，PRISM 之所以能做得如此具体，是因为它围绕 OpenClaw 这类网关的钩子表面和部署假设来设计。这种专用性带来了可落地性，但也限制了可移植性。将同样思路迁移到其他智能体框架，整体原则可以保留，但生命周期映射、工具抽象、策略注入点和运营接口都需要重新适配。因此，PRISM 更像一个“方法样板”，而非可以原封不动复制到所有智能体生态的通用安全标准。

用更直白的话总结：PRISM 这篇论文真正讲明白的是，OpenClaw 的安全不能再只靠内容检测兜底，必须进入“运行时防护”阶段。

过去讨论智能体安全，常容易将问题缩窄为“如何识别恶意 prompt”。但对于能调用工具、能写状态、能向外发送内容的智能体而言，风险治理的关键其实是另一组问题：当前会话风险多高？哪些工具还能用？哪些路径不能碰？哪些域名不能访问？哪些秘密不能外发？异常发生后能否留下证据？策略能否热更新？这已不是单纯的模型安全问题，而是运行时系统安全问题。PRISM 的价值在于，它将这些问题第一次较为完整地串成了一套可部署的答案。

当然，它还远不是终点。它没有证明自己已足够成熟，也没有解决底层沙箱、强隔离和全面能力控制的问题。但它清晰地指明了一个方向：未来 OpenClaw 这类智能体的安全架构，恐怕不再是“再加几个内容安全模型”，而是“在智能体网关旁边长出一整套运行时安全层”。谁先把这层真正做出来，谁才更有可能定义下一阶段的智能体安全基线。

上一篇：不可信主机下的应急取证：LinIR 的零信任实践
上一篇：npm源映射泄露致Claude Code源码暴露

联系我们

返回顶部