专利 一种基于强化学习的边缘计算任务卸载方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111483883.2 (22)申请日 2021.12.07 (71)申请人吉林大学地址 130012 吉林省长春市朝阳区南湖大路5372号 (72)发明人于银辉　郭思宇　程国豪　田子玉　 (74)专利代理机构北京慕达星云知识产权代理事务所 (特殊普通合伙) 11465 代理人崔自京 (51)Int.Cl. G06F 9/445(2018.01) G06F 9/50(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于强化学习的边缘计算任务卸载方法 (57)摘要本发明公开了一种基于强化学习的边缘计算任务卸载方法，包括以下步骤： S1.建立边缘计算系统模型； S2.普通用户节点产生任务上报至 SDN总控制器节点，根据用户任务情况，选择本地计算或卸载计算，在需要进行卸载计算时，通过强化学习方法训练后的SDN总控制器节点根据实时网络状态，频谱资源和计算资源，获得基于边缘节点网络状态的最优卸载策略并反馈至普通用户节点； S3.普通用户节点根据最优卸载策略将任务卸载给服务节点，服务节点执行分配到的计算任务，并将计算结果反馈至普通用户节点。本发明能够有效缓解计算资源紧张的问题。权利要求书3页说明书7页附图2页 CN 114138373 A 2022.03.04 CN 114138373 A 1.一种基于强化学习的边缘计算任务卸载方法，其特征在于，包括以下步骤： S1.建立边缘计算系统模型，边缘计算系统模型包括：普通用户节点、可租用用户节点、 MEC服务器节点和SDN总控制器节点，其中，每个SDN总控制器节点下，包括N个泊松分布的普通用户节点N＝{u1,u2,u3,…,uN}，可租用用户节点和MEC服务器节点作为服务节点共M个，记为K＝{k1,k2,k3,…,kM}； S2.普通用户节点产生任务上报至SDN总控制器节点，根据用户任务情况，选择本地计算或卸载计算，在需要进行卸载计算时，通过强化学习方法训练后的SDN总控制器节点根据实时网络状态，频谱资源和计算资源，获得基于边缘节点网络状态的最优卸载策略并反馈至普通用户节点； S3.普通用户节点根据最优卸载策略将任务卸载给服务节点，服务节点执行分配到的计算任务，并将计算结果反馈至普通用户节点。 2.根据权利要求1所述的一种基于强化学习的边缘计算任务卸载方法，其特征在于， S2 中选择本地计算或卸载计算的具体内容包括：普通用户节点产生的一个任务Ri包括：当前任务的数据包大小di，当前任务的最大可容忍时延当前任务计算能力需求αi；根据本地计算能力获取在时隙t时任务计算执行时间具体方法为：若当前任务本地执行所需时间不超过最大可容忍时延则在本地执行，若不是则选择卸载计算。 3.根据权利要求1所述的一种基于强化学习的边缘计算任务卸载方法，其特征在于，对 SDN总控制器节点进行强化学习训练的内容包括：在每个时隙t， SDN总控制器节点根据当前环境状态st，发布卸载策略进行动作at选择，普通用户节点采取动作at，根据所采取的每个动作at返回一个奖赏值信号rt+1和一个新的状态st+1，将新的状态st+1更新当前环境状态st进行循环迭代；针对每个环境状态st和动作at通过Q‑learning函数计算Q值，并根据Q值通过Bellman最优方程获取最优策略，使总期望回报最大化；其中，环境状态st∈S， S为所有状态的合集，每个环境状态s包括：系统总开销e，当前信道使用情况g，服务节点有效计算资源f；动作at∈A， A为所有动作的合集。 4.根据权利要求3所述的一种基于强化学习的边缘计算任务卸载方法，其特征在于，在迭代过程中，通过学习率 δ 来进行更新Q值， Q值的更新表达式为: 其中， δ(0 ≤ δ≤1)为学习率，表示当前学习的知识对先前学习的知识的影响。 5.根据权利要求3所述的一种基于强化学习的边缘计算任务卸载方法，其特征在于，动作选择包括信道选择、功率选择和计算资源选择，表示为通道、功率、计算资源矩阵at＝ [cg,p,cf]。权　利　要　求　书 1/3 页 2 CN 114138373 A 26.根据权利要求3所述的一种基于强化学习的边缘计算任务卸载方法，其特征在于，产生奖赏值信号的奖赏函数r为规定时隙t内所有任务的计算及传输能耗与可容忍时延满足情况的联合效用值：其中， etran(t)， ecomp(t)表示当前任务的传输能耗以及计算能耗， Ttran(t),Tcomp(t)分别为当任务卸载执行时，任务传输时间与计算时间，和均为权重系数， Pout表示当任务实际时延超过可容忍时延时产生的惩罚值。 7.根据权利要求1所述的一种基于强化学习的边缘计算任务卸载方法，其特征在于，根据Q值通过Bellman最优方程获取最优策略的具体方法为：其中， ζ值反映未来收益相对于当前收益的重要性，若ζ趋向于0，倾向于考虑立即的回报；若 ζ 趋向于1时，则更关注未来的收益；最优策略表示为： 8.根据权利要求1所述的一种基于强化学习的边缘计算任务卸载方法，其特征在于，服务节点卸载计算时，首先卸载计算任务，通过无线通信链路将计算任务发送给服务节点；计算任务从用户传输到服务节点的时间为: 其中， VM为边缘计算网络的数据传输能力；当数据卸载到服务节点时，将执行数据计算；执行数据计算的时间为：其中，为服务节点的计算数据处理能力；当任务卸载到服务节点进行计算时，任务处理时间为： 9.根据权利要求8所述的一种基于强化学习的边缘计算任务卸载方法，其特征在于，普通用户节点将任务卸载给服务器节点进行D2I模式通信，将任务卸载给附近的可租用用户节点进行D2D模式通信，并使D2I模式和D2D模式工作在同一频段；将系统的总频谱分为G个正交子信道， G＝{1,2,3, …,g},将子信道的带宽设为B Hz，假设每个普通用户节点都有一个计算密集型任务要完成，并且每个用户仅被分配一个子通道，子信道的信噪比为：其中， pi表示用户的上行传输功率，表示用户Di与服务节点Sj进行数据传输时的所使权　利　要　求　书 2/3 页 3 CN 114138373 A 3

专利 一种基于强化学习的边缘计算任务卸载方法

专利一种基于强化学习的边缘计算任务卸载方法