安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111424091.8 (22)申请日 2021.11.26 (71)申请人 华东师范大学 地址 200241 上海市闵行区东川路5 00号 (72)发明人 杨钊 王廷 蔡海滨  (74)专利代理 机构 上海蓝迪专利商标事务所 (普通合伙) 31215 代理人 徐筱梅 张翔 (51)Int.Cl. H04L 67/10(2022.01) H04L 67/101(2022.01) H04L 67/1008(2022.01) G06F 9/50(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于混合动作空间强化学习算法的计 算卸载方法 (57)摘要 本发明公开了一种基于混合动作空间强化 学习算法的计算卸载方法, 该方法包括步骤: a) 在多设备多服务器的应用场景下建立任务协作 卸载与资源分配模型; b) 获取请求任务的状态; c) 获得学习模型和d) 求解卸载决策; 通过将卸载 过程中的决策划分为具有离散行为选择和连续 行为决策的混合动作空间, 并且通过为离散行为 和连续行为 分别制定不同的决策策略, 取得更有 效的优化效果。 本发明基于处理具有混合动作空 间的深度强化学习算法, 将移动设备的任务完成 时延和能量消耗作为优化目标, 与其他算法相比 本发明提出的方法相比可有效降低移动用户时 延和能耗, 提升用户体验质量。 权利要求书3页 说明书9页 附图2页 CN 114205353 A 2022.03.18 CN 114205353 A 1.一种基于混合动作空间强化学习算法的计算卸载方法, 其特征在于, 该方法包括以 下具体步骤: S1、 在多设备多服务器的应用场景下建立任务协作卸载与资源分配模型,包括边缘卸 载环境模型、 计算任务模型、 计算任务决策模型, 计算任务传输网络模型、 本地处理时延和 能耗模型、 卸载处 理时延和能耗模型及具有混合动作空间的马尔可 夫决策过程卸载模型; S2、 获取请求任务的状态,具体包括: S201: 获取边 缘服务器信道带宽Wm和服务器处理能力 S202: 获取 各个移动设备的任务状况和设备的处 理能力 S3、 获得学习模型, 具体包括: S301: 获取需要执 行的任务序列; S302: 采样k个学习任务, 初始化离散行为网络参数θc、 连续行为网络参数θ 以及评估网 络参数θs; S303: 采样获得状态行为 集合, 采取对应的动作, 评估奖励; S304: 判断奖励是否收敛或者是否达到迭代次数上限, 当奖励收敛或已达到迭代次数 上限时, 即可获取参数集合, 当奖励不收敛或未达到迭代次数上限时, 同步评估网络和行为 网络的参数返回步骤S3 02; S305: 更新系统网络参数, 获取 学习模型; S4、 求解卸载决策, 具体包括: S401: 通过离散行为网络获取离散行为 通过连续行为网络获取连续行为 其中 代表边缘服务器的选择, 分别代表卸载率和边缘服务器分配给设备的计算 能力; S402: 采取对应的离 散行为和连续行为, 评估奖励。 2.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法, 其特 征在于, 步骤S1 中所述计算任务模 型, 其建立具体包括: 每个时隙移动设备会产生一个计算 密集型任务 用任务队列来处理到达其设备上的任务; 将移动设备n的任务队列表示为 其中 表示在时隙t时移动设备n的任务队列中所需处理 的数据总量, 则表示移动设备n在时隙t 内实际处理的数据大小, 表示处理one ‑bit数据所需要消耗的计 算资源即用CPU计算周期数来表示, 被用来表示移动设备的优先级, 代表设备n在时隙t内对 于完成 大小的数据的最大延迟容忍度。 3.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法, 其特 征在于, 步骤S1中所述计算任务决策模型, 其建立具体包括: 允许设备n将任务的一部分卸 载到边缘服务器上进行处理; 首先进行卸载决策的选择, 用 来定义移动设备n是否将任务 卸载到边缘服务器上执行, 若 则表示任务完全在本地执行, 而 则表示将任务 卸载到边缘服务器m上执行; 接下来进行卸载率的选 择; 用 表示卸载率, 即移动设备 n将会将 比率大小的数据卸载到边缘服务器m上, 剩余的 部分的数据将会留在本 地设备上执行; 特殊的, 当 时代表移动设备n的任务将会完全在本地执行, 当 代权 利 要 求 书 1/3 页 2 CN 114205353 A 2表移动设备n的任务将会完全卸载到边缘服务器m上执行; 最后边缘服务器 m需要在时隙t内 为要卸载任务到该服务器的所有移动设备分配计算能力; 模型中使用 来表 示在时隙t内边 缘服务器m为移动设备n分配的计算能力大小。 4.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法, 其特 征在于, 步骤S1中所述计算任务传输网络模型, 其建立具体包括: 移动设备n需要通过无线 网络数据卸载到边缘服务器m上; 由于存在在同一个时隙t内多个移动设备决定将任务卸载 到同一个服务器上执行的情况, 要将服务器的带宽合理分给所有要将任务卸载到该服务器 上的移动设备; 依据香农公式, 采用如下的公式计算不同设备在时隙t内卸载任务到边缘服 务器m的上传速率: 其中Zn是移动设备用于上传数据的发射功率, hn是移动设备在无线信道中的信道增益, N0是复杂白高斯信道噪声的方差, Pn设备的优先级,Wm代表边缘服务器m的带宽 。 5.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法, 其特 征在于, 步骤S1中所述本地处理时延和能耗模型, 其建立具体包括: 当移动设备n选择将 比率大小的数据卸载到边缘服务器m上时, 会有 大小的数据留在本地执行, 相应的需 要的CPU计算周期数为 而本地设备处理数据的计算能力大小为 所以本地处 理数据的时 延为 : 相应的处理该部分的 数据所 消耗的能量为 : 其中, Vn为处理数据每 个CPU计算周期需要消耗的能量。 6.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法, 其特 征在于, 步骤S1中所述卸载处理时延和能耗模型, 其建立具体包括: 移动 设备n选择将 比 率大小的数据通过网络传输到边缘服务器m上时, 会有 大小的数据卸载到边缘服务器m 上, 并且需要 大小的CPU时钟周期数来处 理对应的数据, 最后边 缘服务器m会将完成的 结果返回给设备n; 在MEC系统中, 将反馈传输的时间和能量消耗忽略不计; 在计算任务传输 网络模型中得到设备n上传任务到边缘服务器m的上传速率, 那么该部分数据 的传输时延 为 : 相应的 传输该部分数 据到边缘服务器m上的 能 量 消耗为 : 其中e为设备n单位时间传输数据所消耗的能量; 则该部分的数据在 边缘服务器m上的处理时延为: 那么将数据卸载到边缘服务器m上的全部时 延为: 其中 为数据该部分数据的传输时延, 为该部分的 数据在边 缘服务器m上的处 理时延。 7.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法, 其特 征在于, 步骤S1中所述具有混合动作 空间的马尔可夫决策过程为: Tn=(S, A, R, π ), 式中元权 利 要 求 书 2/3 页 3 CN 114205353 A 3

.PDF文档 专利 一种基于混合动作空间强化学习算法的计算卸载方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于混合动作空间强化学习算法的计算卸载方法 第 1 页 专利 一种基于混合动作空间强化学习算法的计算卸载方法 第 2 页 专利 一种基于混合动作空间强化学习算法的计算卸载方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:48上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。