专利 面向限时红蓝对抗问题动作空间解耦的博弈决策方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210079797.3 (22)申请日 2022.01.24 (71)申请人中国电子科技集团公司第五十四研究所地址 050081 河北省石家庄市中山西路589 号第五十四所航天实验室 (72)发明人耿虎军　孟楠　张加佳　姜岩松　张文宝　楚博策　韩长兴　高晓倩　王梅瑞　高峰　 (74)专利代理机构河北东尚律师事务所 13124 专利代理师王文庆　曲佳颖 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称面向限时红蓝对抗问题动作空间解耦的博弈决策方法 (57)摘要本发明公开了一种面向限时红蓝对抗问题动作空间解耦的博弈决策方法，属于人工智能中的博弈决策领域。其包括步骤： 1、将博弈问题进行抽象，完成博弈问题建模，想定结构化抽象以及基于语义的对抗场景的搭建； 2、构建非完全信息下蓝方信息预测预训练模型，支持红方视角下非完全信息到完全信息的映射； 3、构建单个团体的动作空间并设计评估函数，进行基于动作空间解耦的蒙特卡洛树决策； 4、设计路径关联度及影响判别函数，进行基于团体影响程度的蒙特卡洛树决策后处理，完成高相关团体的动作空间设计及低相关团体的决策结果输出，最终得到博弈决策结果。本发明可求解时间受限下的复杂博弈问题，并针对大规模动作空间进行快速搜索，支持高效准确的博弈决策。权利要求书3页说明书7页附图1页 CN 114492749 A 2022.05.13 CN 114492749 A 1.一种面向限时红蓝对抗问题动作空间解耦的博弈决策方法，其特征在于，包括以下步骤：步骤1，搭建具有迷雾效果的红蓝对抗场景，提供各自阵营视角的红蓝双方态势语义信息,同时基于建筑物进行环境抽象，引入连通性及节点将地图离散化，并明确动作空间制定原则；步骤2，对各自阵营视角的红蓝双方态势语义信息进行解析，构建博弈数据进行非完全信息下的蓝方信息预测模型的训练，得到预训练模型BNr；步骤3，将红方视角下基于迷雾的蓝方非完全态势语义信息及红方信息进行解析，送入蓝方信息预测模型BNr，进行未知的蓝方信息的预测，得到红方视角下的蓝方完全信息；步骤4，建立基于连通收益矩阵、辐射概率矩阵和红蓝单元分布矩阵的联合蒙特卡洛树评估体系；步骤5，基于步骤3得到的蓝方完全信息和步骤4得到的评估体系，针对红方每个团体构建动作空间，建立蒙特卡洛树分开决策；其中，初始时刻红方每个单元定义为 1个团体，在每个团体的蒙特卡洛树决策过程中，仅对当前团体进行搜索决策，其他团体静止；步骤6，基于步骤5得到的蒙特卡洛树决策结果进行后处理，检查每个团体的蒙特卡洛树搜索结果产生的最终状态，并判断结果是否会相互影响，对于互相影响的团体则组合成新团体，返回步骤5构建联合动作空间，直至达到设定的时间阈值，输出当前决策结果；对于不存在关联关系的团体，直接输出当前决策结果；步骤7，基于当前决策结果生成决策语义，并执行当前方案。 2.根据权利要求1所述的面向限时红蓝对抗问题动作空间解耦的博弈决策方法，其特征在于，步骤1具体包括以下步骤： 101构建包含具有迷雾效果的基于语义态势的红蓝对抗场景，其中红蓝双方基于可视范围获取信息，红蓝双方的博弈输入均为语义信息； 102提取城市建筑物，针对博弈想定地图进行离散化，构建可通行区域，其中地图用(M1， N1)维度的0， 1矩阵表示， 0代表可通行区域， 1代表不可通行区域； 103基于可通行区域将问题离散化，用连通节点v表示城市中的可通行位置，通过距离阈值dthr判别节点的连通，用vi， j表示可通行区域的第i行第j列的节点，用vp， q表示可通行区域的第p行第q列的节点，若两个节点之间的距离d(vi， j， vp， q)小于dthr，则节点vi， j， vp， q连通，否则不连通，并以此构造节点的邻接矩阵其中，节点vij的邻接矩阵A(vij)为M1行N1列的矩阵， a(vi， j)(p， q)表示节点vi， j与节点vp， q 的联通性：进而得到每个节点的连通节点，即位于每个节点红蓝单元的移动动作空间。 3.根据权利要求2所述的面向限时红蓝对抗问题动作空间解耦的博弈决策方法，其特权　利　要　求　书 1/3 页 2 CN 114492749 A 2征在于，步骤4具体包括以下步骤： 401基于邻接矩阵计算出每个节点vi， j与其他节点vp， q的连通性lij：连通性值越高，表示节点与其他节点的连通性越好，其中M1， N1分别为地图的长宽， Amn (vij)为矩阵A(vij)第m行n列的元素； 402基于节点的连通性构造连通收益矩阵 403构造博弈单元k的辐射概率矩阵博弈单元包括红方单元和蓝方单元，其中辐射概率矩阵通过下述方式计算： ①初始化博弈单元k的辐射概率矩阵 ②基于博弈单元位置更新辐射概率矩阵τk；若博弈单元k位于vi， j处，则vi， j处的辐射概率值为1；其余位置vp， q处的辐射概率值由衰减函数G(vi， j， vp， q)给出：其中， α 为衰减系数； C(vi， j， vp， q)表示节点vi， j， vp， q之间的最短路径长度，通过广度或深度遍历得到，当辐射深度C(vi， j， vp， q)到达设定阈值或者辐射概率值小于设定阈值时停止辐射； 404将博弈单元的辐射概率矩阵叠加，得到红方阵营或蓝方阵营的整体辐射概率矩阵 D：其中， n为红方单元或蓝方单元的个数，若n＝0，则令最终红方或蓝方的评估得分表示如下： Sr＝Z·Db Sb＝Z·Dr 其中， Sr为红方阵营的评估得分， Sb为蓝方阵营的评估得分， ·表示矩阵对应元素相乘， Dr为红方阵营的整体辐射概率矩阵， Db为蓝方阵营的整体辐射概率矩阵。 4.根据权利要求1所述的面向限时红蓝对抗问题动作空间解耦的博弈决策方法，其特征在于，步骤6具体包括以下步骤： 601基于节点相似度定义路径关联度：权　利　要　求　书 2/3 页 3 CN 114492749 A 3

专利 面向限时红蓝对抗问题动作空间解耦的博弈决策方法

专利面向限时红蓝对抗问题动作空间解耦的博弈决策方法