随着个人 AI 助手能力不断增强,它们不仅能聊天,还可以访问文件、调用 API、执行命令、连接 Telegram、WhatsApp、Slack 等外部平台。这种“AI代理化”趋势虽然提升了自动化效率,但也带来了新的安全风险。
近期,研究人员针对 OpenClaw 进行安全测试时发现,多种“隐藏式提示词注入”方式可以绕过模型判断,在用户毫无察觉的情况下影响 AI 行为,甚至诱导其执行危险操作。
相关问题已被提交给 OpenClaw 安全团队,并在 2026.4.23 版本中进行了修复。但研究人员指出,提示词注入并非 OpenClaw 独有,而是整个 AI Agent 行业面临的共同挑战。
提示词注入(Prompt Injection)本质上是:
攻击者通过伪装内容,偷偷向 AI 下达隐藏指令,从而改变 AI 的正常行为。
与传统漏洞不同,这类攻击并不依赖系统崩溃或代码缺陷,而是直接利用大语言模型对“文本上下文”的理解能力。
一旦 AI 拥有:
提示词注入的风险就会急剧放大。
OpenClaw 属于典型的 AI Agent 平台,支持:
问题在于:
大量来自外部平台的数据,会被直接拼接后发送给 LLM。
而这些数据中,可能夹带恶意指令。
研究人员发现:
OpenClaw 对部分消息对象缺乏明确的“不可信边界”处理,导致模型难以区分:
研究人员构造了一个特殊联系人。
表面上看只是普通联系人,但在姓名字段后面隐藏了一段长文本,并插入了恶意命令。
由于 OpenClaw 会把联系人信息按如下方式发送给模型:
<contact:NAME, NUMBER>
模型无法判断:
哪些内容是真正的联系人姓名,
哪些内容是恶意提示词。
最终 AI 被成功诱导执行了攻击者指定的行为。
研究人员还利用了 .vcf 电子名片格式。
由于 vCard 本身支持大量自由文本字段:
攻击者可以把恶意提示词隐藏在这些字段中。
而用户看到的只是:
“别人发来的一张联系人卡片”。
但 AI 读取时,却可能把这些内容当成正常上下文理解。
WhatsApp 等平台分享定位时,通常包含:
研究人员将恶意提示词藏进了“位置标签”中。
用户看到的是:
“公司地址”或“办公地点”。
但 AI 接收到的数据中,却包含完整的隐藏指令。
最终再次成功诱导模型执行攻击逻辑。
研究人员强调:
真正危险的不是“某个漏洞”,而是:
用户可能只是:
但 AI 已经在后台读取并解析隐藏内容。
如果攻击载荷存在于:
那么一次传播,就可能影响大量 AI Agent。
尤其是在企业环境中:
AI 已经开始接入:
风险会进一步扩大。
OpenClaw 在 2026.4.23 版本中进行了修复,包括:
但研究人员指出:
行业目前仍缺乏统一标准:
“AI 应该如何安全处理外部消息对象”。
不要让模型直接拥有:
包括:
都需要建立明确的安全边界。
目前绝大多数 AI Agent:
仍然缺乏成熟的提示词注入防护体系。
这不是单一产品问题,
而是整个 AI Agent 生态共同面临的挑战。
AI Agent 正在从“聊天工具”演变为真正的“数字执行者”。
它们拥有:
而提示词注入,
正在成为 AI 时代新的攻击入口。
未来的 AI 安全,
不仅是模型安全,
更是:
如何建立完整的 AI Agent 安全体系,
已经成为整个行业必须面对的问题。