安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210535352.1 (22)申请日 2022.05.17 (71)申请人 南京邮电大 学 地址 210003 江苏省南京市 鼓楼区新模范 马路66号 (72)发明人 亓晋 陈孟玺 孙雁飞 许斌  (74)专利代理 机构 南京纵横知识产权代理有限 公司 32224 专利代理师 母秋松 (51)Int.Cl. G06F 9/50(2006.01) G06F 9/48(2006.01) G06F 9/455(2006.01) (54)发明名称 一种面向共享式GPU集群下的容器调度方法 及装置 (57)摘要 本发明公开了一种面向共享式GPU集群下的 容器调度方法及装置, 获取Pod创建请求, 根据 Pod创建请求中Pod创建信息对Pod进行校验获得 Pod标记, 并根据Pod创建信息获取Pod总的所需 资源信息; 根据Pod创建信息中Pod业务优先级标 签和Pod总的所需资源信息对Pod进行排序, 获得 调度队列队头的待调度Pod; 根据待调度Pod的 Pod创建信息中Pod所需的CPU标签、 内存标签与 GPU标签, Pod标记和集群节点状态信息, 对节点 进行过滤, 获得Pod可调度节点; 根据Pod可调度 节点的数量和待调度Pod的Pod标记, 计算Pod对 应可调度节点的得分, 根据得分待调度Pod匹配 最优的Pod可调度节点。 本发明提高任务处理效 率及节点内资源的利用率。 既考虑负载均衡, 又 提高资源利用率, 且避免出现CP U、 内存消耗不均 衡。 权利要求书4页 说明书12页 附图4页 CN 114968566 A 2022.08.30 CN 114968566 A 1.一种面向共享式GPU集群下的容器调度方法, 其特 征在于: 包括如下步骤: 获取Pod创建请求, 根据Pod创建请求中Pod创建信息对Pod进行校验获得Pod标记, 并根 据Pod创建信息获取Pod总的所需资源信息; 根据Pod创建信息中Pod业务优先级标签和 Pod总的所需资源信息对Pod进行排序, 获得 调度队列队头的待调度Pod; 根据待调度Pod的Pod创建信息中Pod所需的CPU标签、 内存标签与GPU标签, Pod标记和 集群节点状态信息, 对节点进行 过滤, 获得Pod可调度节点; 根据Pod可调度节点的数量和待调度Pod的Pod标记, 计算Pod对应可调度节点的得分, 根据得分待调度Pod匹配最优的Pod可调度节点。 2.根据权利要求1所述的一种面向共享式GPU集群下的容器调度方法, 其特征在于: 所 述获取Pod创建请求, 根据Pod创建请求中Pod创建信息对Pod进 行校验获得Pod标记, 并根据 Pod创建信息获取Pod总的所需资源信息, 包括: 获取Pod创建请求中Pod创 建信息的GPU标签, 若Pod不包含GPU标签, 则Pod标记为非需 求GPU资源Pod; 若Pod包 含GPU标签, 则Pod标记为需要GPU资源Pod; 根据Pod创建信息的各个容器运行所需的资源信息, 对所有容器 中同类资源进行累加, 得出Pod总的所需资源信息 。 3.根据权利要求2所述的一种面向共享式GPU集群下的容器调度方法, 其特征在于: 所 述Pod总的所需资源信息包括: GUP资源申请量、 CPU资源申请量、 内存资源申请量、 GPU显存 申请量。 4.根据权利要求1所述的一种面向共享式GPU集群下的容器调度方法, 其特征在于: 所 述根据Pod创建信息中Pod业务优 先级标签和Pod总的所需资源信息对Pod进 行排序, 获得调 度队列队头的待调度Pod, 包括: 根据Pod业 务优先级标签数值对Pod进行从高到底排序; 如果n个待调度Pod中存在m个Pod之间Pod业务优先级标签数值差小于预设阈值, m<n, 对m个Pod筛 选GPU资源申请量, 将GPU资源申请量少的Pod优先排序; 如果GPU资源申请量相同时, 筛 选CPU资源申请量, 将CPU资源申请量少的Pod优先排序; 如果CPU资源申请量相同时, 筛选内存资源申请量, 将内存资源申请量少的Pod优先排 序; 如果GPU、 CPU、 内存资源申请量都相同, 不变动排序顺序; 排序最高的Pod为调度队列队头的待调度Pod。 5.根据权利要求1所述的一种面向共享式GPU集群下的容器调度方法, 其特征在于: 所 述根据待调度Po d的Pod创建信息中Pod所需的CPU标签、 内存标签与 GPU标签, Po d标记和集 群节点状态信息, 对节点进行 过滤, 获得Pod可调度节点, 包括: 获取待调度Pod的Pod所需的CPU标签、 内存标签与GPU标签; 获取当前集群下所有节点状态, 并获取空闲节点资源信 息, 空闲节点资源信息包括: 节 点所持有的CPU时钟频率、 CPU 使用率、 可用内存、 GPU 核心数、 GPU时钟频率、 GPU 使用率; 遍历集群中的所有空闲节点, 当节点所持有的CPU时钟频率大于待调度Pod的CPU时钟 频率标签值时, 则将该节点标记为可调度节点, 节点可调度标签值标记为1, 否则标记为0; 遍历所有可调度节点标签值为1的节点, 当节点所持有的可用内存值大于待调度Pod的权 利 要 求 书 1/4 页 2 CN 114968566 A 2内存标签值, 则持续将该节点可调度标签值标记为1, 否则将其标记为0; 若待调度Pod为非需求GPU资源Pod, 则将所有可调度节点标签值为1的节点作为Pod可 调度节点; 若待调度Pod为需求GPU资源Pod, 则遍历所有可调度节点标签值为1的节点, 当节点所 持有的GPU核心数大于GPU数量标签值, 且节点GPU可用显存总值大于GPU显存标签值时, 将 节点作为Pod可调度节点。 6.根据权利要求5所述的一种面向共享式GPU集群下的容器调度方法, 其特征在于: 还 包括: 检查所有Pod可调度节点的请求卷和节点上其他Pod使用的卷是否冲突, 如果存在冲 突, 则过滤该Pod可调度节点。 7.根据权利要求1所述的一种面向共享式GPU集群下的容器调度方法, 其特征在于: 所 述根据Pod可调度节点的数量和待调度Pod的Pod标记, 计算Pod对应可调度节点的得分, 根 据得分待调度Pod匹配最优的Pod可调度节点, 包括: 当Pod可调度节点数量 等于1, 将该 可调度节点作为 最佳节点; 当Pod可调度节点数量大于1, 若待调度Pod的Pod标记为非需要GPU资源Pod, 计算非需 求GPU资源Pod对应可调度节点的得分Score1, 选择得分最高节点作为最佳节点, 并将待调 度Pod与最佳节点进行绑定; 非需求GPU资源Pod对应可调度节点的得分Score1计算公式如下: 其中, 为CPU、 内存资源均衡第一得分的权重, 为 G PU空 闲 率得分的 权重 , 为 C PU 、 内 存资 源 均衡 第一得分 , GPU空闲率得分; 所述 其中, 表示待调度Pod的CPU资源申请量, 表示可 调度节点内剩余空闲CPU总量之和, 表示待调度Pod 的内存资源申请 量, 表示可调度节点内剩余空闲内存资源之和, abs(*)表示取绝对 值; 所述 计算公式如下:                (2) 其中 , 表示可调度节点内剩余空闲GPU显存总量之和,权 利 要 求 书 2/4 页 3 CN 114968566 A 3

.PDF文档 专利 一种面向共享式GPU集群下的容器调度方法及装置

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向共享式GPU集群下的容器调度方法及装置 第 1 页 专利 一种面向共享式GPU集群下的容器调度方法及装置 第 2 页 专利 一种面向共享式GPU集群下的容器调度方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:14:08上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。