(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111483883.2
(22)申请日 2021.12.07
(71)申请人 吉林大学
地址 130012 吉林省长 春市朝阳区南湖大
路5372号
(72)发明人 于银辉 郭思宇 程国豪 田子玉
(74)专利代理 机构 北京慕达星云知识产权代理
事务所 (特殊普通合伙)
11465
代理人 崔自京
(51)Int.Cl.
G06F 9/445(2018.01)
G06F 9/50(2006.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于强化学习的边缘计算任务卸载方
法
(57)摘要
本发明公开了一种基于强化学习的边缘计
算任务卸载方法, 包括以下步骤: S1.建立边缘计
算系统模型; S2.普通用户节点产生任务上报至
SDN总控制器节点, 根据用户任务情况, 选择本地
计算或卸载计算, 在需要进行卸载计算时, 通过
强化学习方法训练后的SDN总控制器节点根据实
时网络状态, 频谱资源和计算资源, 获得基于边
缘节点网络状态的最优卸载策略并反馈至普通
用户节点; S3.普通用户节点根据最优卸载策略
将任务卸载给服务节点, 服务节 点执行分配到的
计算任务, 并将计算结果反馈至普通用户节点。
本发明能够有效缓解计算资源紧张的问题。
权利要求书3页 说明书7页 附图2页
CN 114138373 A
2022.03.04
CN 114138373 A
1.一种基于强化学习的边 缘计算任务卸载 方法, 其特 征在于, 包括以下步骤:
S1.建立边缘计算系统模型, 边缘计算系统模型包括: 普通用户节点、 可租用用户节点、
MEC服务器节 点和SDN总控制器节 点, 其中, 每个SDN总控制器节 点下, 包括N个泊松分布的普
通用户节点N={u1,u2,u3,…,uN}, 可租用用户节点和MEC服务器节点作为服务节点共M个,
记为K={k1,k2,k3,…,kM};
S2.普通用户节点产生任务上报至SDN总控制器节点, 根据用户任务情况, 选择本地计
算或卸载计算, 在需要进 行卸载计算时, 通过强化学习方法训练后的SDN总控制器节点根据
实时网络状态, 频谱资源和计算资源, 获得基于边缘节点网络状态的最优卸载策略并反馈
至普通用户节点;
S3.普通用户节点根据最优卸载策略将任务卸载给服务节点, 服务节点执行分配到的
计算任务, 并将计算结果反馈 至普通用户节点。
2.根据权利要求1所述的一种基于强化学习的边缘计算任务卸载方法, 其特征在于, S2
中选择本地计算或卸载计算的具体内容包括:
普通用户节点产生的一个任务Ri包括: 当前任务的数据 包大小di, 当前任务的最大可容
忍时延
当前任务计算能力需求αi;
根据本地计算能力获取在时隙t时任务计算执 行时间
具体方法为:
若当前任务本地执行所需时间不超过最大可容忍时延
则在本地执行, 若不是则选
择卸载计算。
3.根据权利要求1所述的一种基于强化学习的边缘计算任务卸载方法, 其特征在于, 对
SDN总控制器节点进行强化学习训练的内容包括:
在每个时隙t, SDN总控制 器节点根据当前环境状态st, 发布卸载策略进行动作at选择,
普通用户节点采取动 作at, 根据所采取的每个动 作at返回一个奖赏值信号rt+1和一个新的状
态st+1, 将新的状态st+1更新当前环境状态st进行循环迭代;
针对每个环境状态st和动作at通过Q‑learning函数计算Q值, 并根据Q值通过Bellman最
优方程获取最优策略, 使总期望回报最大化;
其中, 环境状态st∈S, S为所有状态的合集, 每个环境状态s包括: 系统总开销e, 当前信
道使用情况g, 服 务节点有效计算资源f; 动作at∈A, A为所有动作的合 集。
4.根据权利要求3所述的一种基于强化学习的边缘计算任务卸载方法, 其特征在于, 在
迭代过程中, 通过 学习率 δ 来进行 更新Q值, Q值的更新表达式为:
其中, δ(0 ≤ δ≤1)为学习率, 表示当前 学习的知识对先 前学习的知识的影响。
5.根据权利要求3所述的一种基于强化学习的边缘计算任务卸载方法, 其特征在于, 动
作选择包括信道选择、 功率选择和计算资源选择, 表示为通道、 功率、 计算资源矩阵at=
[cg,p,cf]。权 利 要 求 书 1/3 页
2
CN 114138373 A
26.根据权利要求3所述的一种基于强化学习的边缘计算任务卸载方法, 其特征在于, 产
生奖赏值信号的奖赏函数r为规定时隙t内所有任务的计算及传输能耗与可容忍时延满足
情况的联合效用值:
其中, etran(t), ecomp(t)表示当前任务的传输能耗以及计算能耗, Ttran(t),Tcomp(t)分别
为当任务卸载执行时, 任务传输时间与计算时间,
和
均为权重系数, Pout表示当任务实
际时延超过 可容忍时延时产生的惩罚值。
7.根据权利要求1所述的一种基于强化学习的边缘计算任务卸载方法, 其特征在于, 根
据Q值通过Bellman最优方程获取最优策略的具体方法为:
其中, ζ值反映未来收益相对于当前收益的重要性, 若ζ趋向于0, 倾向于考虑立即的回
报; 若 ζ 趋向于1时, 则更关注未来的收益;
最优策略表示 为:
8.根据权利要求1所述的一种基于强化学习的边缘计算任务卸载方法, 其特征在于, 服
务节点卸载计算时, 首先卸载计算任务, 通过无线通信链路将计算任务 发送给服务节点; 计
算任务从用户传输 到服务节点的时间为:
其中, VM为边缘计算网络的数据传输能力;
当数据卸载到服 务节点时, 将执 行数据计算; 执 行数据计算的时间为:
其中,
为服务节点的计算数据处 理能力;
当任务卸载到服 务节点进行计算时, 任务处 理时间为:
9.根据权利要求8所述的一种基于强化学习的边缘计算任务卸载方法, 其特征在于, 普
通用户节点将任务卸 载给服务器节点进行D2I模式通信, 将任务卸 载给附近的可租用用户
节点进行D2D模式通信, 并使D2I模式和D2D模式工作在同一频 段;
将系统的总频谱分为G个正交子信道, G={1,2,3, …,g},将子信道的带宽设为B Hz, 假
设每个普通用户节点都有一个计算密集型任务要完成, 并且每个用户 仅被分配一个子通
道, 子信道的信噪比为:
其中, pi表示用户的上行传输功率,
表示用户Di与服务节点Sj进行数据传输时的所使权 利 要 求 书 2/3 页
3
CN 114138373 A
3
专利 一种基于强化学习的边缘计算任务卸载方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:19:33上传分享