专利 一种基于扰动攻击的电力网络安全主动检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211293453.9 (22)申请日 2022.10.21 (71)申请人国网江苏省电力有限公司苏州供电分公司地址 215000 江苏省苏州市劳动路555号 (72)发明人王震宇　薛劲松　冯仁君　吉志远　潘伟　 (74)专利代理机构苏州创元专利商标事务所有限公司 3210 3 专利代理师乔峰 (51)Int.Cl. G06F 30/27(2020.01) G06N 7/00(2006.01) G06F 113/04(2020.01) (54)发明名称一种基于扰动攻击的电力网络安全主动检测方法 (57)摘要本发明公开了一种基于扰动攻击的电力网络安全主动检测方法，包括：采用强化学习中的马尔可夫模型对环境建立深度学习模型，根据强化学习预定义的多元组，智能体与所述环境进行交互，并将所述多元组收集至经验池，作为后续训练的采样轨迹；通过模拟计算正常数据样本下的电压偏差区间以及对应注入扰动性对抗攻击数据后产生的电压偏差区间，以减少两者之间重复的偏差区间为目标，调整正常数据样本下的电压偏差的最大值以主动区分出受到电力网络扰动攻击的情形。本发明提供的电力网络安全主动检测方法主动降低模拟扰动性对抗攻击下动作的偏差，代替了之前智能电网信息系统被动防御扰动性对抗攻击，提升了智能电网系统的防御能力。权利要求书2页说明书7页附图2页 CN 115510762 A 2022.12.23 CN 115510762 A 1.一种基于扰动攻击的电力网络安全主动检测方法，其特征在于，包括以下步骤：采用强化学习中的马尔可夫模型对环境建立深度学习模型，所述环境为智能电网信息系统受到电力网络扰动攻击，在所述深度学习模型中，根据强化学习预定义的多元组，智能体与所述环境进行交互，并将所述多元组收集至经验池，作为后续训练的采样轨迹；所述多元组包含正常情况下和受到扰动性对抗攻击情况下对应的数据对，所述多元组包括状态值x、动作值y和奖励值r，其中，所述状态值x为所述智能电网信息系统所管理的功率值，动作值y为所述智能电网信息系统对充放电功率的输出调度区间的决策，奖励值r为外电网输送的电压偏差的反馈值；通过模拟计算正常数据样本下的电压偏差区间以及对应注入扰动性对抗攻击数据后产生的电压偏差区间，以减少两者之间重复的偏差区间为目标，调整正常数据样本下的电压偏差的最大值以主动区分出受到电力网络扰动攻击的情形；所述智能体包括行动者智能体和评论家智能体，将所述经验池中的采样轨迹分别输入至所述行动者智能体和评论家智能体中进行训练，然后通过预定义的损失函数更新智能体的网络参数，以优化所述深度学习模型的主动检测能力。 2.根据权利要求1所述的电力网络安全主动检测方法，其特征在于，所述状态值的计算公式如下： x＝Wbat(t)＝Wload(t)+Wout(t)；式中， Wbat(t)为智能电网信息系统的充放电功率， Wout(t)为外电网发电功率， Wload(t)为负荷电功率；所述奖励值的计算公式如下：式中， ΔP(t)为在t时刻外电网输出电压的偏移。 3.根据权利要求1所述的电力网络安全主动检测方法，其特征在于，在未受到扰动攻击的环境下，将交互得到的部分连续数据进行收集处理，得到该环境下对应的数据对，以作为第一类多元组，并评估采用对应行动的价值，所述智能体在学习过程中趋向于使得该价值最大化。 4.根据权利要求3所述的电力网络安全主动检测方法，其特征在于，采取优势函数去评估对应状态下所述智能电网信息系统采用对应行动的价值，其公式如下： A(x,y)＝(Ey～ π(·|x)[r(x,y)+γV(x ′)]‑E[r(x,y)+γEy′～ π(·|x′)[Q(x′,y′)]]) 式中， V为在对应状态下智能电网信息系统所采取所有的充放电功率的能量调度区间的价值， Q为在对应状态下采取的智能电网信息系统所采取一种充放电功率的能量调度区间的价值， E为期望函数， π为智能电网信息系统的策略网络， x ′为所述智能电网信息系统在状态值x时采取动作值y后所面临的新的状态值， y ′为在x经过更新的策略网络处理后输出的动作值， γ为折扣因子， r(x,y)为在状态值x下采用动作值y而得到的奖励值。 5.根据权利要求3所述的电力网络安全主动检测方法，其特征在于，从经验池中获取部分第一类多元组，加入扰动性对抗攻击数据后进行主动迭代计算，以产生新的数据对，作为第二类多元组。 6.根据权利要求5所述的电力网络安全主动检测方法，其特征在于，计算第一类多元组权　利　要　求　书 1/2 页 2 CN 115510762 A 2与对应的第二类多元组的能量调度区间的重叠部分，其计算公式如下： Coversame(x,x+Δx)＝max(0, πupper(y′|x+Δx)‑πlower(y|x))；式中， πupper(y′|x+Δx)为在智能电网信息系统中能量功率在添加扰动之后所采取的电压的最大上界， πlower(y|x)为在智能电网信息系统中能量功率在正常数据下所采取电压的最小下界,Δx为扰动性对抗攻击数据。 7.根据权利要求6所述的电力网络安全主动检测方法，其特征在于，采用近端策略优化算法减小智能电网信息系统的策略网络更新前后对同一状态对应动作的差异，采用KL熵公式计算 πold(y|x)和 πnew(y′|x)之间的距离，其公式如下：式中， πold(y|x)指旧策略网络在状态值x下作出的动作分布， πnew(y′|x)指新策略网络在状态值x下作出的动作分布。 8.根据权利要求7所述的电力网络安全主动检测方法，其特征在于，所述行动者智能体对应的损失函数计算公式如下：所述评论家智能体对应的损失函数计算公式如下：式中， A为行动者网络函数； C为评论家网络函数；为智能体相对应行动者网络的参数；为智能体相对应评论家网络的参数； ∈是一个超参数，表示允许新行动者网络与旧行动者网络的偏差距离；表示从t时刻之后智能电网信息系统所采取k步决策之后的无偏估计总奖励值。 9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的电力网络安全主动检测方法。 10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8任一项所述的电力网络安全主动检测方法。权　利　要　求　书 2/2 页 3 CN 115510762 A 3

专利 一种基于扰动攻击的电力网络安全主动检测方法

专利一种基于扰动攻击的电力网络安全主动检测方法