安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111490756.5 (22)申请日 2021.12.08 (71)申请人 中盈优创资 讯科技有限公司 地址 200000 上海市嘉定区安亭镇杭桂 路 1112号10层10 04室-4 (72)发明人 周朝卫 (74)专利代理 机构 上海嘉蓝专利代理事务所 (普通合伙) 31407 代理人 金波 (51)Int.Cl. G06F 8/20(2018.01) G06F 8/30(2018.01) G06N 20/00(2019.01) (54)发明名称 一种优化Spark和机器学习框架整合的方法 及装置 (57)摘要 本发明公开一种优化Spar k和机器学习框架 整合的方法及装置, 其中, 该方法包括: 使用 Spark的数据源接口读取数据和处理数据, 生成 DataFrame类型的数据; 处理后的DataFrame数 据, 在数据转换模块, 转换为Arrow格式的数据; Arrow格式的数据通过Ray框架 , 传递给 TensorFlow、 Pytorch等机器学习框架使用; Ray 集群调度机器学习框架。 本发明将大数据处理和 机器学习算法运行在同一套系统; 机器学习算法 可以直接访问HDFS、 MySQL、 Elasticsearch等系 统的数据, 避免昂贵的数据传输成本, 降低端到 端学习延迟; 多套机器学习框架, 可以使用同一 套框架, 无需为每类机器学习算法构建各自的集 群; 机器学习框架可以有效的隔离GPU、 CPU等资 源。 权利要求书2页 说明书10页 附图2页 CN 114185519 A 2022.03.15 CN 114185519 A 1.一种优化Spark和机器学习框架整合的方法, 其特 征在于, 该 方法包括: S01、 使用Spark的数据源接口读取 数据和处 理数据, 生成DataFrame类型的数据; S02、 处理后的DataFrame 数据, 在数据转换模块, 转换为A rrow格式的数据; S03、 Arrow格式的数据通过Ray框架, 传递给TensorFlow、 Pytorch等机器学习框架使 用; S04、 Ray集群调度机器学习框架。 2.根据权利 要求1所述的优化Spark和机器学习框架整合的方法, 其特征在于, 所述S01 中读取数据为异构数据源的数据, 包括但不限于 MySQL、 HDFS、 Elasticsearc h。 3.根据权利 要求1所述的优化Spark和机器学习框架整合的方法, 其特征在于, 所述S01 中处理数据的处理逻辑包括但不限于: 字符串截 取、 数据类型转换、 字段映射、 时间转换、 数 据关联; 所有的处 理逻辑均输入DataFrame格式数据, 输出DataFrame格式新数据。 4.根据权利 要求1所述的优化Spark和机器学习框架整合的方法, 其特征在于, 所述S03 中TensorFl ow、 Pytorc h等机器学习框架运行在Ray集群之上, 无需单独构建独占的集群。 5.根据权利 要求1所述的优化Spark和机器学习框架整合的方法, 其特征在于, 所述S04 包括: S041、 Ray接收到特定 的机器学习框架的代码, 读取从数据交换模块生成的Arrow格式 的数据; S042、 Ray分布式发送至Ray集群的节点, 由Ray集群启动TensorFlow或Pytorch的代码 并分布式执 行; S043、 Ray集群控制GPU、 CPU以及内存等资源, 保证性能和稳定性。 6.一种优化Spark和机器学习框架整合的装置, 其特 征在于, 该装置包括: DataFrame数据生成模块、 使用Spark的数据源接口读取数据和处理数据, 生成 DataFrame类型的数据; Arrow数据转换模块、 处理后的DataFrame数据, 在数据转换模块, 转换为Arrow格式的 数据; 数据传递模块、 Arrow格式的数据通过Ray框架, 传递给TensorFlow、 Pytorch等机器学 习框架使用; 调度模块、 Ray集群调度机器学习框架。 7.根据权利要求6所述的优化Spark和机器学习框架整合的装置, 其特征在于, 所述 DataFrame数据生成模块中读取数据为异构数据源的数据, 包括但不限于MySQL、 HDFS、 Elasticsearc h。 8.根据权利要求6所述的优化Spark和机器学习框架整合的装置, 其特征在于, 所述 DataFrame数据生成模块中处理数据的处理逻辑包括但不限于: 字符串截取、 数据类型转 换、 字段映射、 时间转换、 数据关联; 所有的处理逻辑均输入DataFrame格式数据, 输出 DataFrame格式新数据。 9.根据权利要求6所述的优化Spark和机器学习框架整合的装置, 其特征在于, 所述数 据传递模块中TensorFlow、 Pytorch等机器学习 框架运行在 Ray集群之上, 无需单独构建独 占的集群。 10.根据权利要求6所述的优化Spark和机器学习框架整合的装置, 其特征在于, 所述调权 利 要 求 书 1/2 页 2 CN 114185519 A 2度模块包括: Ray接收读取模块、 Ray接收到特定的机器学习框架的代码, 读取从数据交换模块生成 的Arrow格式的数据; Ray发送启动模块、 Ray分布式发送至Ray集群的节点, 由Ray集群启动TensorFlow或 Pytorch的代码并分布式执 行; Ray集群控制模块、 Ray集群控制GPU、 CPU以及内存等资源, 保证性能和稳定性。 11.一种计算机设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计 算机程序, 其特 征在于, 所述处 理器执行所述计算机程序时实现权利要求1 ‑5所述方法。 12.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有执行权利 要求1‑5所述方法的计算机程序。权 利 要 求 书 2/2 页 3 CN 114185519 A 3
专利 一种优化Spark和机器学习框架整合的方法及装置
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-19 01:18:57
上传分享
举报
下载
原文档
(546.3 KB)
分享
友情链接
GB-T 35749-2017 锦纶66弹力丝.pdf
IATF安全框架 中文版 .pdf
GB-T 14272-2021 羽绒服装.pdf
T-CESA 1041—2019 信息技术 人工智能 服务能力成熟度评价参考模型.pdf
GB-T 40692-2021 政务信息系统定义和范围.pdf
GB-T 5231-2022 加工铜及铜合金牌号和化学成分.pdf
GB-T 43044-2023 数码照相机 规格指南.pdf
GB 17565-2022 防盗安全门通用技术条件.pdf
DB3301-T 0278-2019 小城镇环境综合整治长效管理规范 杭州市.pdf
T-ZZB 1236—2019 汽车减振器用轴承及其单元.pdf
GB-T 14619-2013 厚膜集成电路用氧化铝陶瓷基片.pdf
T-CACM 1437—2023 膝骨关节炎针刀临床诊疗指南.pdf
GB-T 35499-2017 呋喃树脂耐蚀作业质量技术规范.pdf
T-GCHA 1.1—2018 定制家居产品 人造板定制衣柜 第1部分:术语和定义.pdf
T-LYCY 018—2020 文冠果油.pdf
GB-T 34653-2017 全断面隧道掘进机 单护盾岩石隧道掘进机.pdf
GB-T 18593-2010 熔融结合环氧粉末涂料的防腐蚀涂装.pdf
数据安全及备份恢复测评指导书-三级V1.0.doc
T-ZZB 1845—2020 散热器恒温控制阀.pdf
GB 29146-2012 钼精矿单位产品能源消耗限额.pdf
1
/
3
15
评价文档
赞助2.5元 点击下载(546.3 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。