近日,一项来自 Semgrep 的安全测试结果引发业内关注。
在针对 IDOR 越权漏洞的检测任务中,GLM 5.2 展现出了较强的代码理解和安全分析能力。在特定评测条件下,其表现优于 Claude Code,同时成本约为前沿模型的六分之一。
这并不意味着 GLM 5.2 已经全面超过 Claude,也不能简单理解为某个模型“绝对更强”。
但这次结果释放出一个重要信号:
开源大模型在网络安全代码分析领域,已经开始具备实战竞争力。
本次评测关注的是 IDOR 漏洞,也就是“不安全的直接对象引用”。
例如下面这类 Flask 代码:
@app.route('/user/<int:user_id>')
def get_user(user_id):
user = User.query.get_or_404(user_id)
return jsonify(user.to_dict())
这段代码表面上只是根据 URL 中的 user_id 查询用户信息,并返回对应数据。
但真正的问题在于:
它没有验证当前访问者是否有权限查看这个用户的数据。
也就是说,如果攻击者修改 URL 中的用户 ID,就可能读取其他用户的信息。
这类漏洞在真实业务系统中非常常见,尤其容易出现在用户中心、订单系统、工单系统、后台管理系统等场景中。
相比 SQL 注入、命令执行等漏洞,IDOR 更难通过传统规则发现。因为它不是明显调用了危险函数,而是缺少了关键的权限判断。
这种漏洞更接近业务逻辑问题,对模型的上下文理解能力要求更高。
本次测试中,不同模型和框架被放在不同运行条件下进行比较。
Semgrep Multimodal 使用的是更完整的自定义分析框架,可以帮助模型识别和枚举接口端点,从而更有针对性地分析代码。
而 GLM 5.2、MiniMax M3、Kimi K2.7 Code 等开放权重模型,则运行在相对简单的框架中。
它们主要依靠基础提示词和代码库本身进行判断,并没有获得额外的端点发现能力。
这一点非常关键。
也就是说,GLM 5.2 并不是在复杂安全 Agent 流程辅助下取得结果,而是在较少外部支持的情况下,依靠自身对代码和业务逻辑的理解完成分析。
在这样的条件下,GLM 5.2 依然取得了优于 Claude Code 的成绩,同时成本约为前沿模型的六分之一。
这也是此次测试最值得关注的地方。
需要强调的是,这次测试并不能简单得出“GLM 一定比 Claude 强”的结论。
安全代码分析不是单纯的模型能力比拼,还涉及框架设计、提示词质量、上下文组织、接口识别、漏洞验证等多个环节。
从评测结果来看,真正拉开差距的,往往不是模型名称本身,而是模型背后的分析流程。
一个优秀的代码安全分析系统,至少需要具备以下能力:
识别项目中的接口和路由
理解用户身份与权限关系
分析数据访问路径
判断是否缺少授权校验
减少误报和漏报
输出可验证的漏洞证据
因此,未来的安全检测系统,很可能不再只是“调用一个大模型”。
更合理的形态是:
模型 + 规则引擎 + 代码解析工具 + 安全知识库 + 自动化验证流程。
只有把这些能力组合起来,才能真正提升漏洞检测的准确率和落地价值。

GLM 5.2 这次表现突出,对安全行业有很强的启发意义。
过去,企业做 AI 辅助代码审计时,往往更倾向于使用闭源前沿模型,因为它们在复杂推理、代码理解和任务执行上表现更稳定。
但随着开源模型能力提升,情况正在发生变化。
对于安全团队来说,开源模型有几个明显优势:
部署方式更灵活
可以在本地或内网运行
代码数据不必外传
调用成本更低
适合大规模代码扫描
便于和企业内部安全流程集成
尤其是在金融、政企、能源、医疗、运营商等对数据安全要求较高的场景中,本地化部署能力非常重要。
如果开源模型能够在部分安全任务中达到接近甚至超过闭源模型的效果,那么它就不再只是“低成本替代方案”,而可能成为企业安全体系中的重要组成部分。
虽然 GLM 5.2 在本次 IDOR 检测任务中表现优秀,但这个结果不能被过度放大。
原因很简单:
这只是一个漏洞类型
这只是一个数据集
这只是一次具体实验
不同框架会影响结果
不同提示词也会影响表现
IDOR 检测强,不代表 SSRF、RCE、SQL 注入、XSS、供应链风险检测也一定更强。
安全任务本身具有很强的不确定性。不同代码结构、不同业务场景、不同权限模型,都会影响最终判断。
所以更准确的说法应该是:
GLM 5.2 在特定安全代码分析任务中展现出了很强竞争力,尤其在成本、部署灵活性和业务逻辑理解方面值得关注。
这次测试给安全团队带来的最大启示,不是马上更换某个模型,而是要重新思考 AI 安全分析架构。
未来更合理的方式,可能是多模型组合使用:
闭源前沿模型处理复杂推理任务
开源模型承担大规模扫描和本地分析
规则引擎负责基础漏洞识别
静态分析工具提供代码结构信息
安全 Agent 负责流程编排和结果验证
在这种架构下,模型不是唯一核心。
真正重要的是如何把模型能力嵌入到完整的安全工作流中。
对于安全团队而言,未来的竞争重点可能不再是谁调用了最贵的模型,而是谁能把模型、工具链、漏洞知识库和业务流程结合得更好。
GLM 5.2 在 Semgrep 安全测试中的表现,说明开源大模型已经开始进入代码安全分析的核心场景。
它不只是成本更低,也不只是部署更方便,而是在部分高难度安全任务中表现出了真实可用的能力。
对于网络安全行业来说,这意味着 AI 代码审计正在进入一个新的阶段:
安全团队不必只依赖单一闭源模型,也不必把全部能力绑定在一个厂商生态中。
未来,谁能把模型、框架、工具链和安全知识体系结合得更好,谁就更有可能在 AI 安全分析时代取得优势。