专利 一种基于Q-learning的虚拟机细粒度资源自适应管理办法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210440238.0 (22)申请日 2022.04.25 (71)申请人云南师范大学地址 650500 云南省昆明市呈贡区聚贤街 768号 (72)发明人郝佳　甘健侯　周菊香　王俊　朱璐瑜　 (74)专利代理机构昆明人从众知识产权代理有限公司 5 3204 专利代理师沈艳尼 (51)Int.Cl. G06F 9/455(2006.01) G06F 9/50(2006.01) (54)发明名称一种基于Q-learning的虚拟机细粒度资源自适应管理办法 (57)摘要本发明涉及一种基于Q ‑learning的虚拟机细粒度资源自适应管理办法，属于虚拟机动态管理技术领域。本发明首先利用Linux性能监测工具实时搜集硬件计数器数据后，结合LightGBM算法来预测应用的响应时间是否满足SLO。当预测结果超出SLO规定范围时，则基于强化学习框架 Q‑learning，来动态调整CPU、内存、硬盘、网络带宽和末级缓存(Last Level Cache,LLC)这些细粒度资源。使得用户应用在满足SL O指标的同时，还能最大化细粒度资源的使用效率。权利要求书2页说明书8页附图2页 CN 114691303 A 2022.07.01 CN 114691303 A 1.一种基于Q ‑learning的虚拟机细粒度资源自适应管理办法，其特征在于： Step1：根据用户的需求为其预分配资源； Step2：用L inux性能监测工具获取硬件计数器数据； Step3：结合所获取到的硬件计数器数据，构建LightGBM模型来预测用户所部属应用的响应时间T； Step4：利用Q ‑learning做出资源调整的决策； Step5：利用cgroup、 I ntel CAT和HTB实施各类资源的调度。 2.根据权利要求1所述的基于Q ‑learning的虚拟机细粒度资源自适应管理办法，其特征在于，所述Step1具体为：记X＝{xCPU,xmemory,xI/O,xnetwork,xLLC}为某用户所请求的虚拟机资源需求矩阵，其中xi(i ∈{CPU,memory,I/O,netw ork,LLC})表示用户对第i种资源的需求；记Y＝{yCPU,ymemory,yI/O,ynetwork,yLLC}为物理服务器上的资源矩阵；利用公式(1)所示的BestFit(X,Y)函数来找到最合适的资源预分配方案；其中， wi为资源的权重值，其度量了第i(i∈{CPU,memory,I/O,network,LLC})种资源的稀缺性； wi的值越大，表示该资源越稀少， BestFit(X,Y)的值越小，表明当前物理主机的资源浪费越少；因此，当有p台备选物理主机时，通过公式(1)的计算，选择在BestFit(X,Y)值最小的物理主机上部署用户的虚拟机。 3.根据权利要求1所述的基于Q ‑learning的虚拟机细粒度资源自适应管理办法，其特征在于，所述Step2具体为：利用Linux监测命令vmstat和性能监测工具perf来实时记录硬件计数器数据。 4.根据权利要求1所述的基于Q ‑learning的虚拟机细粒度资源自适应管理办法，其特征在于，所述Step3具体为： Step3.1：初始化LightGBM模型为fLight GBM＝0，所有硬件计数器特征集用集合Z来表示，而某一个具体的特征用zi(i∈{swap,free,buff, …,LLC_stores})来表示，即Z＝{z1,z2, z3,…}；训练数据集D中共有N条数据实例，每一条数据实例包括了用户的资源需求数据X和反映资源使用量的硬件计数器数据Z，同时也包括了用户的响应时间T，即：第n(i∈{1,2, …, N})条数据实例的形式为Dn＝{xCPU,xmemory,…,z1,z2,…T}； Step3.2：用fLight GBM依次预测数据集Dn中所有数据实例的响应时间，并记录相应的预测结果梯度值为gn(n∈{1,2, …,N})；第n(i∈{1,2, …,N})条数据实例响应时间的预测结果为fLight GBM(Tn)；随后，利用公式(2)计算该条数据实例真实的响应时间Tn和预测结果fLight GBM(Tn)之间的均方误差，并记相应梯度为 Ln＝(Tn‑fLight GBM(Tn))2 (2)Step3.3：将D中所有数据按照梯度值降序排列后，利用单边梯度采样，选出前a％条数据实例构成集合A；从剩余的|D ‑a％|条数据中，任意挑选b％条数据实例构成集合B；权　利　要　求　书 1/2 页 2 CN 114691303 A 2利用公式(3)依次计算集合Z 中各特征值的分割值Vj(d)(j∈Z)，并选举具有最大V值的点d作为当前模型fLight GBM的最优分割点：式中， Al和Ar分别表示集合A中小于和大于分割点d的集合， Bl和Br分别表示集合B中小于和大于分割点d的集合，和分别表示训练数据集中大于和小于等于分割点d的数量；重复该过程m次，并将相应的最优分割点聚合后，得到模型 Tm与 fLight GBM构成了当前所构建的L ightGBM模型，即： fLight GBM＝fLight GBM+Tm； Step3.4：重复Step3.2和Step3.3共M次，得到一个完整的LightGBM模型，利用该模型所预测的第n条数据实例的响应时间为fLight GBM(Tn)，若该时间的值超出了SLO的规定范围，则利用Step4所描述的Q ‑learning算法来做出资源调整的决策；否则，重复执行Step2，继续监测虚拟机的资源使用情况。 5.根据权利要求1所述的基于Q ‑learning的虚拟机细粒度资源自适应管理办法，其特征在于，所述Step4具体为： Step4.1：初始化当前虚拟机所处状态s＝ s0，随机选取并执行动作act，初始化值函数为 Q(s,act)＝0； Step4.2：根据公式(4)计算此时的奖励值r：并利用∈贪心策略π∈来选取下一步所要执行的资源调整方案，即act ′＝π∈(s)，同时记录转移后的状态为s ′； Step4.3：利用公式(5)来更新值函数Q(s,act)，并将该值存储起来； Q(s,act)＝ Q(s,act)+0.1*(r+0.8*Q(s ′,act′)‑Q(s,act) ) (5) Step4.4：重复Step 4.2和Step 4.3，直至应用的响应时间T在SLO的规定范围内，此时，选取最大值Q(s,act)所对应的动作来作为虚拟机的资源调整策略，即： π(s)＝argmaxQ(s, act)。权　利　要　求　书 2/2 页 3 CN 114691303 A 3

专利 一种基于Q-learning的虚拟机细粒度资源自适应管理办法

专利一种基于Q-learning的虚拟机细粒度资源自适应管理办法