(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111424091.8
(22)申请日 2021.11.26
(71)申请人 华东师范大学
地址 200241 上海市闵行区东川路5 00号
(72)发明人 杨钊 王廷 蔡海滨
(74)专利代理 机构 上海蓝迪专利商标事务所
(普通合伙) 31215
代理人 徐筱梅 张翔
(51)Int.Cl.
H04L 67/10(2022.01)
H04L 67/101(2022.01)
H04L 67/1008(2022.01)
G06F 9/50(2006.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于混合动作空间强化学习算法的计
算卸载方法
(57)摘要
本发明公开了一种基于混合动作空间强化
学习算法的计算卸载方法, 该方法包括步骤: a)
在多设备多服务器的应用场景下建立任务协作
卸载与资源分配模型; b) 获取请求任务的状态;
c) 获得学习模型和d) 求解卸载决策; 通过将卸载
过程中的决策划分为具有离散行为选择和连续
行为决策的混合动作空间, 并且通过为离散行为
和连续行为 分别制定不同的决策策略, 取得更有
效的优化效果。 本发明基于处理具有混合动作空
间的深度强化学习算法, 将移动设备的任务完成
时延和能量消耗作为优化目标, 与其他算法相比
本发明提出的方法相比可有效降低移动用户时
延和能耗, 提升用户体验质量。
权利要求书3页 说明书9页 附图2页
CN 114205353 A
2022.03.18
CN 114205353 A
1.一种基于混合动作空间强化学习算法的计算卸载方法, 其特征在于, 该方法包括以
下具体步骤:
S1、 在多设备多服务器的应用场景下建立任务协作卸载与资源分配模型,包括边缘卸
载环境模型、 计算任务模型、 计算任务决策模型, 计算任务传输网络模型、 本地处理时延和
能耗模型、 卸载处 理时延和能耗模型及具有混合动作空间的马尔可 夫决策过程卸载模型;
S2、 获取请求任务的状态,具体包括:
S201: 获取边 缘服务器信道带宽Wm和服务器处理能力
S202: 获取 各个移动设备的任务状况和设备的处 理能力
S3、 获得学习模型, 具体包括:
S301: 获取需要执 行的任务序列;
S302: 采样k个学习任务, 初始化离散行为网络参数θc、 连续行为网络参数θ 以及评估网
络参数θs;
S303: 采样获得状态行为 集合, 采取对应的动作, 评估奖励;
S304: 判断奖励是否收敛或者是否达到迭代次数上限, 当奖励收敛或已达到迭代次数
上限时, 即可获取参数集合, 当奖励不收敛或未达到迭代次数上限时, 同步评估网络和行为
网络的参数返回步骤S3 02;
S305: 更新系统网络参数, 获取 学习模型;
S4、 求解卸载决策, 具体包括:
S401: 通过离散行为网络获取离散行为
通过连续行为网络获取连续行为
其中
代表边缘服务器的选择,
分别代表卸载率和边缘服务器分配给设备的计算
能力;
S402: 采取对应的离 散行为和连续行为, 评估奖励。
2.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法, 其特
征在于, 步骤S1 中所述计算任务模 型, 其建立具体包括: 每个时隙移动设备会产生一个计算
密集型任务
用任务队列来处理到达其设备上的任务; 将移动设备n的任务队列表示为
其中
表示在时隙t时移动设备n的任务队列中所需处理 的数据总量,
则表示移动设备n在时隙t 内实际处理的数据大小, 表示处理one ‑bit数据所需要消耗的计
算资源即用CPU计算周期数来表示, 被用来表示移动设备的优先级, 代表设备n在时隙t内对
于完成
大小的数据的最大延迟容忍度。
3.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法, 其特
征在于, 步骤S1中所述计算任务决策模型, 其建立具体包括: 允许设备n将任务的一部分卸
载到边缘服务器上进行处理; 首先进行卸载决策的选择, 用
来定义移动设备n是否将任务
卸载到边缘服务器上执行, 若
则表示任务完全在本地执行, 而
则表示将任务
卸载到边缘服务器m上执行; 接下来进行卸载率的选 择; 用
表示卸载率, 即移动设备
n将会将
比率大小的数据卸载到边缘服务器m上, 剩余的
部分的数据将会留在本
地设备上执行; 特殊的, 当
时代表移动设备n的任务将会完全在本地执行, 当
代权 利 要 求 书 1/3 页
2
CN 114205353 A
2表移动设备n的任务将会完全卸载到边缘服务器m上执行; 最后边缘服务器 m需要在时隙t内
为要卸载任务到该服务器的所有移动设备分配计算能力; 模型中使用
来表
示在时隙t内边 缘服务器m为移动设备n分配的计算能力大小。
4.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法, 其特
征在于, 步骤S1中所述计算任务传输网络模型, 其建立具体包括: 移动设备n需要通过无线
网络数据卸载到边缘服务器m上; 由于存在在同一个时隙t内多个移动设备决定将任务卸载
到同一个服务器上执行的情况, 要将服务器的带宽合理分给所有要将任务卸载到该服务器
上的移动设备; 依据香农公式, 采用如下的公式计算不同设备在时隙t内卸载任务到边缘服
务器m的上传速率:
其中Zn是移动设备用于上传数据的发射功率, hn是移动设备在无线信道中的信道增益,
N0是复杂白高斯信道噪声的方差, Pn设备的优先级,Wm代表边缘服务器m的带宽 。
5.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法, 其特
征在于, 步骤S1中所述本地处理时延和能耗模型, 其建立具体包括: 当移动设备n选择将
比率大小的数据卸载到边缘服务器m上时, 会有
大小的数据留在本地执行, 相应的需
要的CPU计算周期数为
而本地设备处理数据的计算能力大小为
所以本地处
理数据的时 延为 :
相应的处理该部分的 数据所 消耗的能量为 :
其中, Vn为处理数据每 个CPU计算周期需要消耗的能量。
6.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法, 其特
征在于, 步骤S1中所述卸载处理时延和能耗模型, 其建立具体包括: 移动 设备n选择将
比
率大小的数据通过网络传输到边缘服务器m上时, 会有
大小的数据卸载到边缘服务器m
上, 并且需要
大小的CPU时钟周期数来处 理对应的数据, 最后边 缘服务器m会将完成的
结果返回给设备n; 在MEC系统中, 将反馈传输的时间和能量消耗忽略不计; 在计算任务传输
网络模型中得到设备n上传任务到边缘服务器m的上传速率, 那么该部分数据 的传输时延
为 :
相应的 传输该部分数 据到边缘服务器m上的 能 量 消耗为 :
其中e为设备n单位时间传输数据所消耗的能量; 则该部分的数据在
边缘服务器m上的处理时延为:
那么将数据卸载到边缘服务器m上的全部时
延为:
其中
为数据该部分数据的传输时延,
为该部分的
数据在边 缘服务器m上的处 理时延。
7.根据权利要求1所述的一种基于混合动作空间强化学习算法的计算卸载方法, 其特
征在于, 步骤S1中所述具有混合动作 空间的马尔可夫决策过程为: Tn=(S, A, R, π ), 式中元权 利 要 求 书 2/3 页
3
CN 114205353 A
3
专利 一种基于混合动作空间强化学习算法的计算卸载方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:19:48上传分享