安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210079797.3 (22)申请日 2022.01.24 (71)申请人 中国电子科技 集团公司第五十四研 究所 地址 050081 河北省石家庄市中山西路589 号第五十四所航天 实验室 (72)发明人 耿虎军 孟楠 张加佳 姜岩松  张文宝 楚博策 韩长兴 高晓倩  王梅瑞 高峰  (74)专利代理 机构 河北东尚律师事务所 13124 专利代理师 王文庆 曲佳颖 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 面向限时红蓝对抗问题动作空间解耦的博 弈决策方法 (57)摘要 本发明公开了一种面向限时红蓝对抗问题 动作空间解耦的博弈决策方法, 属于人工智能中 的博弈决策领域。 其包括步骤: 1、 将博弈问题进 行抽象, 完成博弈问题建模, 想定结构化抽象以 及基于语义的对抗场景的搭建; 2、 构建非完全信 息下蓝方信息预测预训练模型, 支持红方视角下 非完全信息到完全信息的映射; 3、 构建单个团体 的动作空间并设计评估函数, 进行基于动作空间 解耦的蒙特卡洛树决策; 4、 设计路径关联度及影 响判别函数, 进行基于团体影 响程度的蒙特卡洛 树决策后处理, 完成高相关团体的动作空间设计 及低相关团体的决策结果输出, 最终得到博弈决 策结果。 本发 明可求解时间受限下的复杂博弈问 题, 并针对大规模动作空间进行快速搜索, 支持 高效准确的博弈决策。 权利要求书3页 说明书7页 附图1页 CN 114492749 A 2022.05.13 CN 114492749 A 1.一种面向限时红蓝对抗问题动作空间解耦的博弈决策方法, 其特征在于, 包括以下 步骤: 步骤1, 搭建具有迷雾效果的红蓝对抗场景, 提供各自阵营视角的红蓝双方态势语义信 息,同时基于 建筑物进 行环境抽象, 引入连通性及节点将地图离散化, 并明确动作空间制定 原则; 步骤2, 对各自阵营视角的红蓝双方态势语义信息进行解析, 构建博弈数据进行非完全 信息下的蓝方信息预测模型的训练, 得到预训练模型BNr; 步骤3, 将红方视角下基于迷雾的蓝方非完全态势语义信 息及红方信 息进行解析, 送入 蓝方信息预测模型BNr, 进行未知的蓝方信息的预测, 得到红方视角下的蓝方完全信息; 步骤4, 建立基于连通收益矩阵、 辐射概率矩阵和红蓝单元分布矩阵的联合蒙特卡洛树 评估体系; 步骤5, 基于步骤3得到的蓝方完全信 息和步骤4得到的评估体系, 针对红方每个团体构 建动作空间, 建立蒙特卡洛树分开决策; 其中, 初始时刻红方每个单元定义为 1个团体, 在每 个团体的蒙特卡洛树决策 过程中, 仅对当前团体进行搜索决策, 其 他团体静止; 步骤6, 基于步骤5得到的蒙特卡洛树决策结果进行后处理, 检查每个团体的蒙特卡洛 树搜索结果产生的最终状态, 并判断结果是否会相互影响, 对于互相影响的团体则组合成 新团体, 返回步骤5构建联合动作空间, 直至达到 设定的时间阈值, 输出当前决策结果; 对于 不存在关联关系的团体, 直接 输出当前决策 结果; 步骤7, 基于当前决策 结果生成决策语义, 并执 行当前方案。 2.根据权利要求1所述的面向限时红蓝对抗问题动作空间解耦的博弈决策方法, 其特 征在于, 步骤1具体包括以下步骤: 101构建包含具有迷雾效果的基于语义态势的红蓝对抗场景, 其中红蓝双方基于可视 范围获取信息, 红蓝双方的博 弈输入均为语义信息; 102提取城市建筑物, 针对博弈想定地图进行离散化, 构建可通行区域, 其中地图用(M1, N1)维度的0, 1矩阵表示, 0代 表可通行区域, 1代 表不可通行区域; 103基于可通行区域将问题离散化, 用连通节点v表示城市中的可通行位置, 通过距离 阈值dthr判别节点的连通, 用vi, j表示可通行区域的第i行第j列的节 点, 用vp, q表示可通行区 域的第p行第q列的节点, 若两个节点之间的距离d(vi, j, vp, q)小于dthr, 则节点vi, j, vp, q连通, 否则不连通, 并以此构造节点的邻接矩阵 其中, 节点vij的邻接矩阵A(vij)为M1行N1列的矩阵, a(vi, j)(p, q)表示节点vi, j与节点vp, q 的联通性: 进而得到每 个节点的连通节点, 即位于每 个节点红蓝单 元的移动 动作空间。 3.根据权利要求2所述的面向限时红蓝对抗问题动作空间解耦的博弈决策方法, 其特权 利 要 求 书 1/3 页 2 CN 114492749 A 2征在于, 步骤4具体包括以下步骤: 401基于邻接矩阵计算出每 个节点vi, j与其他节点vp, q的连通性lij: 连通性值越高, 表示节点与其他节点的连通性越好, 其中M1, N1分别为地图的长宽, Amn (vij)为矩阵A(vij)第m行n列的元 素; 402基于节点的连通 性构造连通收益矩阵 403构造博弈单元k的辐射概率矩阵 博弈单元包括红方单元和蓝方 单元, 其中辐射 概率矩阵通过 下述方式计算: ①初始化博 弈单元k的辐射 概率矩阵 ②基于博弈单元位置更新辐射概率矩阵τk; 若博弈单元k位于vi, j处, 则vi, j处的辐射概 率值 为1; 其余位置vp, q处的辐射 概率值 由衰减函数G(vi, j, vp, q)给出: 其中, α 为衰减系数; C(vi, j, vp, q)表示节点vi, j, vp, q之间的最短路径长度, 通过广度或深 度遍历得到, 当辐射深度C(vi, j, vp, q)到达设定阈值或者辐射概率值 小于设定阈值时停 止辐射; 404将博弈单元的辐射概率矩阵叠加, 得到红方阵营或蓝方阵营的整体辐射概率矩阵 D: 其中, n为红方 单元或蓝方单元的个数, 若n=0, 则令 最终红方或蓝方 的评估得分表示如下: Sr=Z·Db Sb=Z·Dr 其中, Sr为红方阵营的评估得分, Sb为蓝方阵营的评估得分, ·表示矩阵对应元素相乘, Dr为红方阵营的整体辐射 概率矩阵, Db为蓝方阵营的整体辐射 概率矩阵。 4.根据权利要求1所述的面向限时红蓝对抗问题动作空间解耦的博弈决策方法, 其特 征在于, 步骤6具体包括以下步骤: 601基于节点相似度定义路径关联度: 权 利 要 求 书 2/3 页 3 CN 114492749 A 3

PDF文档 专利 面向限时红蓝对抗问题动作空间解耦的博弈决策方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 面向限时红蓝对抗问题动作空间解耦的博弈决策方法 第 1 页 专利 面向限时红蓝对抗问题动作空间解耦的博弈决策方法 第 2 页 专利 面向限时红蓝对抗问题动作空间解耦的博弈决策方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。