基于模块化与阶段化设计的大语言模型渗透测试基准测试-数掘云算

基于模块化与阶段化设计的大语言模型渗透测试基准测试

2025-12-28 10:31 作者：数掘云算 阅读量：150

PentestEval: Benchmarking LLM-based Penetration Testing with Modular and Stage-Level Design

论文概述

渗透测试是信息安全体系中用于发现系统弱点与潜在威胁的核心手段，但传统方法严重依赖人工专家，存在成本高、效率低、难以规模化等问题。随着大语言模型（LLM）的快速发展，其在自动化推理和任务执行方面的能力为渗透测试自动化提供了新的可能性。然而，现有多数基于 LLM 的渗透方案通常依赖单一或简单提示词，缺乏对渗透流程的系统拆解，也未能充分结合安全领域知识，导致模型在复杂攻击链中呈现出明显的“黑盒”特征，难以评估其在不同阶段的真实能力。

针对上述不足，本文提出 PentestEval，一种面向完整渗透测试流程的模块化、阶段级评估基准。该框架通过细粒度拆分渗透任务，系统分析主流 LLM 在各子阶段中的表现差异与能力瓶颈，为后续模型优化和系统设计提供依据。

研究目标

在实际网络安全场景中，渗透测试流程复杂、技术要求高，仍主要依赖人工专家完成。尽管已有研究尝试将 LLM 引入渗透测试，但普遍存在任务划分粗糙、评估维度单一、缺乏可解释性等问题，使得模型性能难以被精确诊断与改进。

本文的目标在于构建一个结构清晰、评估粒度细致的评测体系，用于系统衡量 LLM 在渗透测试各关键环节中的能力表现。作者参考 NIST 安全指南与 PTES 渗透测试执行标准，将完整渗透流程拆分为六个阶段，并据此设计 PentestEval 框架，以支持模块化评估、阶段级对比和性能追踪，从而推动 LLM 在自动化渗透测试方向的可靠应用。

主要贡献

提出首个面向渗透测试全流程的模块化评估框架 PentestEval，将任务划分为六个阶段，并构建 12 个真实漏洞场景，覆盖 346 个子任务；

构建端到端自动化评测流程，为每个阶段提供由安全专家标注的标准答案，确保评估的客观性与一致性；

对 9 个主流大语言模型及 3 个自动化渗透系统进行系统对比分析，揭示其在多阶段任务中的性能短板；

实证表明“模块化优化优于端到端优化”，通过阶段级改进将整体攻击成功率从 31% 提升至 67%，为系统设计提供重要参考。

渗透测试预备阶段建模

在渗透测试过程中，预备阶段决定了后续攻击策略的可行性与成功率。基于 PTES 与 NIST 标准，本文将该阶段进一步细分为三个连续子步骤：信息收集、漏洞收集与漏洞筛选。

信息收集阶段旨在通过探测目标系统的外部接口，构建系统结构画像，包括访问路径、请求参数等关键信息。随后在漏洞收集阶段，模型需结合系统特征，从 CVE、NVD 等漏洞库以及非结构化安全文本中识别潜在弱点，既涵盖标准化漏洞，也包括弱口令、权限配置错误等通用安全问题。最后，漏洞筛选阶段通过匹配漏洞触发条件与系统实际环境，剔除不可利用的攻击路径，从而为后续阶段提供高质量的候选漏洞集合。

该阶段的准确性直接影响整体渗透流程的效率与成功率，是情报分析与攻击执行之间的重要衔接环节。

PentestEval 框架设计

PentestEval 采用模块化与自动化相结合的设计思路，对 LLM 在渗透测试任务中的能力进行系统评估。框架以真实攻击流程为基础，结合 NIST 与 PTES 标准，将渗透测试划分为六个阶段，覆盖从信息收集到漏洞利用与修复的完整生命周期。

框架主要由三部分组成。首先是场景构建，研究团队基于近十年真实漏洞事件与攻击案例，构建了 12 个具有代表性的测试环境，涵盖多种开发语言与框架，并模拟多阶段攻击链。这些环境以 Docker 形式封装，支持自动化部署与复现实验。

其次是专家标注环节。研究人员邀请具备实战经验的安全专家独立完成各攻击任务，对每个阶段的关键输出进行人工标注与交叉验证，从而生成高质量的参考答案，确保评测结果的可靠性。

最后是性能评估模块。系统通过统一的自然语言描述向模型发起任务，并将模型输出与专家结果进行对比。评估指标覆盖多个维度，如漏洞集合相似度、攻击决策排序相关性、漏洞利用的语法与执行成功率，以及修复阶段的修复有效性，从而实现对模型阶段能力与整体流程表现的精细分析。

实验评估与结果分析

基于 PentestEval 框架，作者对 9 个主流大语言模型（如 GPT-4o、Claude-3.7、Qwen-Max）以及 3 个自动化渗透工具进行了全面评测。评估重点包括阶段级任务表现与端到端攻击成功率两个方面。

实验结果表明，现有模型在多个关键子任务中均存在明显不足，尤其是在攻击决策和漏洞利用阶段，平均成功率低于 30%。在端到端测试中，表现最优的 PentestGPT 成功率仅为 39%，而完全自动化工具的成功率更是低至 6%。相比之下，采用模块化顺序执行策略的系统表现更加稳定，进一步验证了阶段化设计的有效性。

结论与展望

本文提出的 PentestEval 是首个系统性、模块化、阶段化的 LLM 渗透测试评估基准。该框架不仅揭示了当前模型在各阶段的真实能力水平，也表明现阶段 LLM 尚不足以独立完成完整的自动化渗透测试任务。作者指出，未来研究应优先关注模块级能力提升，尤其是在攻击路径规划与漏洞构造等关键环节。同时，PentestEval 为后续工作提供了统一的评测标准，并具备扩展至云安全、物联网等领域的潜力。

上一篇：《彩虹六号：围攻》服务端遭入侵
上一篇：Python urllib3 内容解码机制存在高危安全隐患

联系我们

返回顶部