安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111490756.5 (22)申请日 2021.12.08 (71)申请人 中盈优创资 讯科技有限公司 地址 200000 上海市嘉定区安亭镇杭桂 路 1112号10层10 04室-4 (72)发明人 周朝卫  (74)专利代理 机构 上海嘉蓝专利代理事务所 (普通合伙) 31407 代理人 金波 (51)Int.Cl. G06F 8/20(2018.01) G06F 8/30(2018.01) G06N 20/00(2019.01) (54)发明名称 一种优化Spark和机器学习框架整合的方法 及装置 (57)摘要 本发明公开一种优化Spar k和机器学习框架 整合的方法及装置, 其中, 该方法包括: 使用 Spark的数据源接口读取数据和处理数据, 生成 DataFrame类型的数据; 处理后的DataFrame数 据, 在数据转换模块, 转换为Arrow格式的数据; Arrow格式的数据通过Ray框架 , 传递给 TensorFlow、 Pytorch等机器学习框架使用; Ray 集群调度机器学习框架。 本发明将大数据处理和 机器学习算法运行在同一套系统; 机器学习算法 可以直接访问HDFS、 MySQL、 Elasticsearch等系 统的数据, 避免昂贵的数据传输成本, 降低端到 端学习延迟; 多套机器学习框架, 可以使用同一 套框架, 无需为每类机器学习算法构建各自的集 群; 机器学习框架可以有效的隔离GPU、 CPU等资 源。 权利要求书2页 说明书10页 附图2页 CN 114185519 A 2022.03.15 CN 114185519 A 1.一种优化Spark和机器学习框架整合的方法, 其特 征在于, 该 方法包括: S01、 使用Spark的数据源接口读取 数据和处 理数据, 生成DataFrame类型的数据; S02、 处理后的DataFrame 数据, 在数据转换模块, 转换为A rrow格式的数据; S03、 Arrow格式的数据通过Ray框架, 传递给TensorFlow、 Pytorch等机器学习框架使 用; S04、 Ray集群调度机器学习框架。 2.根据权利 要求1所述的优化Spark和机器学习框架整合的方法, 其特征在于, 所述S01 中读取数据为异构数据源的数据, 包括但不限于 MySQL、 HDFS、 Elasticsearc h。 3.根据权利 要求1所述的优化Spark和机器学习框架整合的方法, 其特征在于, 所述S01 中处理数据的处理逻辑包括但不限于: 字符串截 取、 数据类型转换、 字段映射、 时间转换、 数 据关联; 所有的处 理逻辑均输入DataFrame格式数据, 输出DataFrame格式新数据。 4.根据权利 要求1所述的优化Spark和机器学习框架整合的方法, 其特征在于, 所述S03 中TensorFl ow、 Pytorc h等机器学习框架运行在Ray集群之上, 无需单独构建独占的集群。 5.根据权利 要求1所述的优化Spark和机器学习框架整合的方法, 其特征在于, 所述S04 包括: S041、 Ray接收到特定 的机器学习框架的代码, 读取从数据交换模块生成的Arrow格式 的数据; S042、 Ray分布式发送至Ray集群的节点, 由Ray集群启动TensorFlow或Pytorch的代码 并分布式执 行; S043、 Ray集群控制GPU、 CPU以及内存等资源, 保证性能和稳定性。 6.一种优化Spark和机器学习框架整合的装置, 其特 征在于, 该装置包括: DataFrame数据生成模块、 使用Spark的数据源接口读取数据和处理数据, 生成 DataFrame类型的数据; Arrow数据转换模块、 处理后的DataFrame数据, 在数据转换模块, 转换为Arrow格式的 数据; 数据传递模块、 Arrow格式的数据通过Ray框架, 传递给TensorFlow、 Pytorch等机器学 习框架使用; 调度模块、 Ray集群调度机器学习框架。 7.根据权利要求6所述的优化Spark和机器学习框架整合的装置, 其特征在于, 所述 DataFrame数据生成模块中读取数据为异构数据源的数据, 包括但不限于MySQL、 HDFS、 Elasticsearc h。 8.根据权利要求6所述的优化Spark和机器学习框架整合的装置, 其特征在于, 所述 DataFrame数据生成模块中处理数据的处理逻辑包括但不限于: 字符串截取、 数据类型转 换、 字段映射、 时间转换、 数据关联; 所有的处理逻辑均输入DataFrame格式数据, 输出 DataFrame格式新数据。 9.根据权利要求6所述的优化Spark和机器学习框架整合的装置, 其特征在于, 所述数 据传递模块中TensorFlow、 Pytorch等机器学习 框架运行在 Ray集群之上, 无需单独构建独 占的集群。 10.根据权利要求6所述的优化Spark和机器学习框架整合的装置, 其特征在于, 所述调权 利 要 求 书 1/2 页 2 CN 114185519 A 2度模块包括: Ray接收读取模块、 Ray接收到特定的机器学习框架的代码, 读取从数据交换模块生成 的Arrow格式的数据; Ray发送启动模块、 Ray分布式发送至Ray集群的节点, 由Ray集群启动TensorFlow或 Pytorch的代码并分布式执 行; Ray集群控制模块、 Ray集群控制GPU、 CPU以及内存等资源, 保证性能和稳定性。 11.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特 征在于, 所述处 理器执行所述计算机程序时实现权利要求1 ‑5所述方法。 12.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有执行权利 要求1‑5所述方法的计算机程序。权 利 要 求 书 2/2 页 3 CN 114185519 A 3

.PDF文档 专利 一种优化Spark和机器学习框架整合的方法及装置

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种优化Spark和机器学习框架整合的方法及装置 第 1 页 专利 一种优化Spark和机器学习框架整合的方法及装置 第 2 页 专利 一种优化Spark和机器学习框架整合的方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:18:57上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。