安全公司报告
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210376827.7 (22)申请日 2022.04.12 (65)同一申请的已公布的文献号 申请公布号 CN 114461369 A (43)申请公布日 2022.05.10 (73)专利权人 山东省计算中心 (国家超 级计算 济南中心) 地址 250014 山东省济南市历下区科院路 19号 (72)发明人 王英龙 张贤明 王继彬 郭莹  杨美红  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 李琳 (51)Int.Cl. G06F 9/48(2006.01)G06F 9/50(2006.01) (56)对比文件 CN 110569233 A,2019.12.13 CN 114064588 A,2022.02.18 CN 110008199 A,2019.07.12 CN 1079482 93 A,2018.04.20 CN 105227645 A,2016.01.0 6 CN 114077602 A,202 2.02.22 CN 111125058 A,2020.0 5.08 WO 2022001480 A1,202 2.01.06 Jibin Wang.A sc heduling algorithm based on resource overcom mitment i n virtualization enviro nments. 《IE EE》 .2016, 赵泽亚等.海量遥感数据的存 储迁移策略研 究. 《信息 工程大学学报》 .2020,(第01期), 审查员 辛小霞 (54)发明名称 一种面向复杂应用场景的自适应数据调度 系统及方法 (57)摘要 本发明属于数据迁移技术领域, 提供了一种 面向复杂应用场景的自适应数据调度系统及方 法, 根据影 响迁移作业因素以及针对 数据的特征 自动调整调度策略, 分为: 数据源负载均衡策略、 数据文件热度策略以及数据文件合并拆解策略, 首先达到数据源的负载均衡化 以及作为数据流 转迁移任务的高并发基础, 而后将根据数据文件 的特征自适应的调整选取对应的策略, 针对不同 类型海量数据作业的流转迁移处理要求, 实现异 构存储系统之间数据快速迁移的高要求、 大带宽 的高速传输网络的高要求。 权利要求书3页 说明书11页 附图5页 CN 114461369 B 2022.08.19 CN 114461369 B 1.一种面向复杂应用场景的自适应数据调度系统, 其特征在于, 包括: 多个数据中心集 群, 每个数据中心集群中均包括元数据服务器和调度器; 所述调度器包括负载均衡化处理 模块、 动态调度模块以及数据迁移模块; 所述负载均衡化处理模块, 包括多个负载均衡化处理子模块, 被配置为: 以数据流转迁 移作业总时间最短为 目标, 结合影响数据迁移作业的因素和多个负载均衡化处理子模块, 将待迁移数据源改造为待迁移分布式数据源后均匀分发到各发送 节点上; 所述负载均衡化处理子模块包括标识数据记录模块、 切片划分模块、 发送节点划分模 块、 均匀映射模块以及数据分配模块; 所述标识数据记录模块, 被配置为: 依次遍历待迁移数据的数据集, 选择每个数据集的 数据记录标识; 所述切片划分模块, 被配置为: 采用分区方法对数据记录标识进行切片划分, 将待迁移 数据源划分为若干数据分块; 所述发送节点划分模块, 被配置为: 根据发送节点的计算能力得到该发送节点的权重 值, 根据发送节点的权重值将发送节点划分成若干个虚拟发送节点, 每个发送节点将数据 分块的个数以及发送 节点的权 重值得到所对应的虚拟发送 节点的个数; 所述均匀映射模块, 被配置为: 将数据分块和虚拟发送节点按照分布式哈希算法映射 到相同的范围中, 再根据虚拟发送节点和真实发送节点之间对应关系, 找到数据分块与发 送节点之间的映射关系; 所述数据分配模块, 被配置为: 按照数据分块到发送节点之间映射关系来发送数据分 块到相应的发送 节点中; 所述动态调度模块, 被配置为: 接收元数据服务器中所读取的各发送节点上待迁移数 据源的文件属 性特征, 将文件的属 性特征与自定义阈值进行比较, 根据比较结果自适应的 执行数据文件合并拆解子模块或数据文件热度子模块; 所述动态调度模块中, 将文件的属性特征与自定义阈值进行比较, 根据比较结果自适 应的执行数据文件合并拆解子模块或数据文件热度子模块, 被 配置为: 将待迁移数据源文件的真实访问次数与自定义固定阈值进行比较, 若待迁移数据源文 件的真实访问次数小于自定义固定阈值时, 针对此部分迁移数据文件自适应地执行数据文 件合并拆解子模块, 否则执 行数据文件热度子模块; 所述数据文件合并拆解子模块, 被 配置为: 根据各发送 节点的待迁移数据的文件大小和带宽, 得到传输文件大小值的阈值区间; 判断发送 节点上的待迁移数据文件大小是否在阈值区间内; 若待迁移数据文件大小符合阈值区间, 则为符合阈值区间的数据文件创建流转迁移作 业, 并将该作业置入数据流 转迁移作业队列中; 若待迁移数据文件大小低于最小值, 则一直合并小文件直到新得到的合并文件大小符 合阈值区间, 为该文件创建流 转迁移作业, 后将该作业置入数据流 转迁移作业队列中; 若待迁移数据文件大小高于最大值, 则 拆解大文件直到新得到的拆解文件大小符合阈 值区间, 为该文件创建流 转迁移作业, 后将该作业置入数据流 转迁移作业队列中; 所述数据文件热度子模块, 被 配置为: 读取发送 节点上待迁移数据文件的真实访问次数值;权 利 要 求 书 1/3 页 2 CN 114461369 B 2依次循环遍历数据文件的元数据, 根据遍历得到的文件访问次数属性标记数据文件的 优先级, 将 高优先级数据文件、 中优先级数据文件以及低优先级数据文件依 次计入对应的 优先级作业队列中; 为每 个发送节点分配数据流 转迁移作业任务; 所述数据迁移模块, 被配置为: 将执行完相应调度模块的待迁移数据文件作为任务分 配给各个发送节点, 发送节点将根据数据流转迁移作业队列中的迁移任务序列执行数据的 迁移, 将数据发送到目标集群的数据接收节点中。 2.一种面向复杂应用场景的自适应数据调度方法, 其特 征在于, 包括如下步骤: 以数据流转迁移作业的总时间最短为目标, 结合影响数据迁移作业的因素数据源负载 均衡策略, 将待迁移数据源改造为待迁移分布式数据源后均匀分发到各发送 节点上, 包括: 依次遍历待迁移数据的数据集, 选择每 个数据集的数据记录标识; 采用分区方法对数据记录标识进行切片划分, 将待迁移数据源划分为若干数据分块; 根据发送节点的计算 能力得到该发送节点的权重值, 根据发送节点的权重值将发送节 点划分成若干个虚拟发送节点, 每个发送节点将数据分块的个数以及发送节点的权重值得 到所对应的虚拟发送 节点的个数; 将数据分块和 虚拟发送节点按照分布式哈希算法映射到相同的范围中, 再根据虚拟 发 送节点和真实 发送节点之间对应关系, 找到数据分块与发送 节点之间的映射关系; 按照数据分块到发送 节点之间映射关系来发送数据分块到相应的发送 节点中; 接收各发送节点上待迁移数据源的文件属性特征, 根据文件属性特征和自定义阈值的 比较结果, 对待迁移数据文件自适应执行数据文件合并拆解调 度策略或数据文件热度调 度 策略; 所述根据文件属性特征和自定义阈值对待迁移数据源自适应执行相应的调度 策略, 包 括: 将待迁移数据源文件的真实访问次数与自定义固定阈值进行比较, 若待迁移数据源文 件的真实访问次数小于自定义固定阈值时, 针对此部分迁移数据文件自适应地执行数据文 件合并拆解策略, 否则执 行数据文件热度策略; 所述执行数据文件合并拆解策略具体包括: 根据各发送 节点的待迁移数据的文件大小和带宽, 得到传输文件大小值的阈值区间; 判断发送 节点上的待迁移数据文件大小是否在阈值区间内; 若待迁移数据文件大小符合阈值区间, 则为符合阈值区间的数据文件创建流转迁移作 业, 并将该作业置入数据流 转迁移作业队列中; 若待迁移数据文件大小低于最小值, 则一直合并小文件直到新得到的合并文件大小符 合阈值区间, 为该文件创建流 转迁移作业, 后将该作业置入数据流 转迁移作业队列中; 若待迁移数据文件大小高于最大值, 则 拆解大文件直到新得到的拆解文件大小符合阈 值区间, 为该文件创建流 转迁移作业, 后将该作业置入数据流 转迁移作业队列中; 所述执行数据文件热度策略具体包括: 读取发送 节点上待迁移数据文件的真实访问次数值; 依次循环遍历数据文件的元数据, 根据遍历得到的文件访问次数属性标记数据文件的 优先级, 将 高优先级数据文件、 中优先级数据文件以及低优先级数据文件依 次计入对应的 优先级作业队列中; 为每 个发送节点分配数据流 转迁移作业任务;权 利 要 求 书 2/3 页 3 CN 114461369 B 3

.PDF文档 专利 一种面向复杂应用场景的自适应数据调度系统及方法

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向复杂应用场景的自适应数据调度系统及方法 第 1 页 专利 一种面向复杂应用场景的自适应数据调度系统及方法 第 2 页 专利 一种面向复杂应用场景的自适应数据调度系统及方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:14:10上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。