安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210534281.3 (22)申请日 2022.05.17 (71)申请人 上海弘玑信息技 术有限公司 地址 201240 上海市闵行区紫星路58 8号2 幢13层055室 (72)发明人 陈子龙 石欣  (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 钟扬飞 (51)Int.Cl. G06F 9/50(2006.01) (54)发明名称 数据处理方法、 装置、 设备和存 储介质 (57)摘要 本申请提供一种数据处理方法、 装置、 设备 和存储介质, 该方法包括: 获取待处理数据的数 据总量, 所述待处理数据对应于当前数据处理任 务; 根据所述待处理数据的数据总量, 确定所述 待处理数据对应的内存占用总量; 基于所述内存 占用总量、 预设内存阈值和分布式集群中当前可 用内存资源量, 为所述数据处理任务分配对应的 节点资源和执行方案。 本申请实现了缓解分布式 集群中数据处理任务执行过程中资源分配不均 的问题, 提高分布式集群的资源利用率。 权利要求书3页 说明书14页 附图4页 CN 114860449 A 2022.08.05 CN 114860449 A 1.一种数据处 理方法, 其特 征在于, 包括: 获取待处 理数据的数据总量, 所述待处 理数据对应于当前 数据处理任务; 根据所述待处 理数据的数据总量, 确定所述待处 理数据对应的内存占用总量; 基于所述内存占用总量、 预设内存阈值和分布式集群中当前可用内存资源量, 为所述 数据处理任务分配对应的节点资源和执 行方案。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述待处理数据的数据总量, 确 定所述待处 理数据对应的内存占用总量, 包括: 根据所述待处 理数据的数据总量, 确定样本量; 根据所述样本量和分层特 征对所述待处 理数据进行抽样, 得到抽样数据; 根据所述抽样数据, 确定所述待处 理数据中每条 数据对应的平均内存占用量; 根据所述平均内存占用量和所述数据总量确定所述待处理数据对应的所述内存占用 总量。 3.根据权利要求2所述的方法, 其特 征在于, 还 包括: 采用如下公式确定所述样本量: 其中, n为所述当前数据处理任务对应的待处理数据需要的样本量, z为置信水平对应 的置信度, α 为显著水平, p为相关属性比例, E为 误差幅度。 4.根据权利要求2所述的方法, 其特征在于, 所述根据所述抽样数据, 确定所述待处理 数据中每条 数据对应的平均内存占用量, 包括: 对所述抽样数据进行有效性分析, 从中提取 所述抽样数据的有效响应 体; 根据所述有效响应 体确定所述待处 理数据中每条 数据对应的平均内存占用量。 5.根据权利要求1所述的方法, 其特征在于, 所述基于所述内存占用总量、 预设内存阈 值和分布式集群中当前可用内存资源量, 为所述数据处理任务分配对应的节点资源和执行 方案, 包括: 判断所述内存占用总量是否大于所述当前 可用内存资源量; 当所述内存占用总量小于或等于所述当前可用内存资源量 时, 判断所述内存占用总量 是否大于所述预设内存阈值; 当所述内存占用总量大于所述预设内存阈值 时, 按照预期并行度将所述数据处理任务 拆分成多个子任务; 基于所述分布式集群中各个节点对应的当前可用内存资源比例, 为所述多个子任务分 配对应的第一目标节点, 并确定所述执 行方案为多个子任务并行 执行。 6.根据权利要求5所述的方法, 其特征在于, 所述基于所述分布式集群中各个节点对应 的当前可用内存资源比例, 为所述多个子任务分配对应的第一目标节点, 包括: 从所述分布式集群中选出多个第 一候选节点, 所述第 一候选节点的当前可用资源量大 于或等于每 个所述子任务需要的内存占用量; 基于所述多个第 一候选节点中各个节点对应的当前可用内存资源比例, 为所述多个子 任务依次分配第一目标节点, 所述第一目标节点为所述多个第一候选节点中所述当前可用权 利 要 求 书 1/3 页 2 CN 114860449 A 2内存资源占比最大的节点。 7.根据权利要求5所述的方法, 其特征在于, 所述基于所述内存占用总量、 预设内存阈 值和分布式集群中当前可用内存资源量, 为所述数据处理任务分配对应的节点资源和执行 方案, 还包括: 当所述内存占用总量小于或等于所述预设内存阈值 时, 基于所述分布式集群中各个节 点对应的当前可用内存资源比例, 为所述数据 处理任务分配对应的第二 目标节点, 确定所 述执行方案为按照并行度为1执 行所述数据处 理任务分。 8.根据权利要求7所述的方法, 其特征在于, 所述基于所述分布式集群中各个节点对应 的当前可用内存资源比例, 为所述数据处 理任务分配对应的第二目标节点, 包括: 从所述分布式集群中选出多个第 二候选节点, 所述第 二候选节点的当前可用资源量大 于或等于每个数据处理任务需要的内存占用量; 基于所述多个第二候选节点中各个节点对 应的当前可用内存资源比例, 为所述数据 处理任务分配第二 目标节点, 所述第二 目标节点 为所述多个第二 候选节点中所述当前 可用内存资源占比最大的节点。 9.根据权利要求5所述的方法, 其特征在于, 所述基于所述内存占用总量、 预设内存阈 值和分布式集群中当前可用内存资源量, 为所述数据处理任务分配对应的节点资源和执行 方案, 还包括: 当所述内存占用总量大于所述当前可用内存资源量 时, 按照所述预期并行度将所述数 据处理任务拆分成多个子任务; 基于所述分布式集群中各个节点对应的当前可用内存资源比例, 为所述多个子任务分 配对应的第三目标节 点, 并确定所述执行方案为同一个所述第三目标节点上的多个所述子 任务串行 执行, 不同的所述第三目标节点之间的所述子任务并行 执行。 10.根据权利要求9所述的方法, 其特征在于, 所述基于所述分布式集群中各个节点对 应的当前 可用内存资源比例, 为所述多个子任务分配对应的第三目标节点, 包括: 从所述分布式集群中选出多个第 三候选节点, 所述第 三候选节点的当前可用资源量大 于或等于每 个所述子任务需要的内存占用量; 基于所述多个第 三候选节点中各个节点对应的当前可用内存资源比例, 为所述多个子 任务依次分配第三目标节点, 所述第三目标节点为所述多个第三候选节点中所述当前可用 内存资源占比最大的节点。 11.根据权利要求1所述的方法, 其特征在于, 在所述基于所述内存占用总量、 预设内存 阈值和分布式集群中当前可用内存资源量, 为所述数据处理任务分配对应的节点资源和执 行方案之后, 还 包括: 按照节点资源分配结果和所述执 行方案执行所述数据处 理任务。 12.根据权利要求1所述的方法, 其特征在于, 所述获取待处理数据的数据总量, 所述待 处理数据对应于当前 数据处理任务, 包括: 提取所述当前数据处理任务中的任务描述, 所述任务描述中包括: 待抽取的目标数据 源的定义和待抽取 数据集的定义; 根据所述目标数据源的定义和所述待抽取数据集的定义, 从所述目标数据源中查询所 述待抽取 数据集的所述数据总量。 13.一种电子设备, 其特 征在于, 包括:权 利 要 求 书 2/3 页 3 CN 114860449 A 3

.PDF文档 专利 数据处理方法、装置、设备和存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据处理方法、装置、设备和存储介质 第 1 页 专利 数据处理方法、装置、设备和存储介质 第 2 页 专利 数据处理方法、装置、设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:16:43上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。