【论文阅读】基于强化学习的网络安全防护策略

本文探讨了一种使用强化学习和自对弈寻找网络安全防御策略的方法。将攻击与防御建模为马尔可夫博弈过程，通过策略迭代和多样化策略池解决训练收敛问题。实验表明，这种方法能有效地学习到确定性的攻击和防御策略，但可能会在某些场景下出现振荡和过拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本篇文章将介绍一篇针对网络安全问题，运用强化学习方法寻找最优的网络防御策略。

🔥 这篇文章主要贡献是将攻击者和防御者之间的互动建模为一个马尔可夫博弈过程，以及为减小计算量和增加算法的收敛性使用的两个小trick，创新点没有那么突出，但对网络攻击防御的过程建模值得看看。

摘要
提出了一种针对入侵防御用例的安全策略自动查找方法。将攻击者和防御者之间的互动建模为一个马尔可夫博弈，在没有人为干预的情况下，让攻击和防御策略通过强化学习和自演来进化
模型
将入侵防御建模为一个零和马尔可夫博弈(Zero-sum Markov game)，涉及攻击者代理和防御者代理
- 入侵防御博弈过程
  上述图包括四个网络部分， $N_{start}$ 代表着攻击者，剩下的代表防御者设备，其中 $N_{data}$ 是攻击者想要达到的部分即攻击者的目标组件。攻击者为破坏目标组件，攻击者通过侦察来探索基础设备，并在获取目标组件的路径上破坏组件；同时防御者进行监视，并增加防御，以防止攻击者访问目标组件。
  【开始阶段】对于攻击者整个基于设施是个黑盒，相反，防御者完全了解网络的拓扑结构和网络漏洞(即每个节点有多种面对不同攻击的防御方法以及防御强度)，但无法观察攻击的状态。所描述的对抗过程是一款基于回合的游戏。
- 入侵防御博弈模型
  建立零和马尔可夫博弈模型，确定状态、动作以及奖励。
  状态：每个节点 $N_k$ 有与之相关的节点状态