安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210487185.8 (22)申请日 2022.05.06 (71)申请人 苏州国科综合数据中心有限公司 地址 215000 江苏省苏州市工业园区星湖 街328号创意产业园A 2幢 (72)发明人 徐恩格 易寅辉 单晓冬 蒋鹏飞 鲍复劼 (74)专利代理 机构 北京同恒源知识产权代理有 限公司 1 1275 专利代理师 廖曦 (51)Int.Cl. G06F 9/50(2006.01) G06N 3/04(2006.01) G06N 3/063(2006.01) (54)发明名称 基于LSF的多主机多GPU分布式布置深度学 习模型的方法 (57)摘要 本发明涉及一种基于LSF的多主机多GPU分 布式布置深度学习模型的方法, 属于计算机领 域。 该方法包括以下步骤: S1: 资源申请及调度; S2: 使用资源进行深度学习模型的训练。 S1在LSF 集群下完成, 通过LSF的指令申请计算 资源, 然后 在发送任务时使用blaunch指令, 使作业得以发 送到多台主机。 计算资源包括: 需要创建的作业 总数, 等于申请的GPU总数; 单台主机的图形处理 器GPU个数; 每台主机 上的作业数, 不超 过单台主 机的GPU个数。 在LSF集群 下, 实现了多主机多GPU 分布式布置深度学习模型。 这使得用户可以同时 使用更多GPU处理同一训练任务。 减少训练集数 据较大时模型的训练时间。 权利要求书2页 说明书5页 附图1页 CN 114968559 A 2022.08.30 CN 114968559 A 1.基于LSF的多主机多GPU分布式布置深度学习模型的方法, 其特征在于: 该方法包括 以下步骤: S1: 资源申请及调度; S2: 使用资源进行深度学习模型的训练。 2.根据权利要求1所述的基于LSF的多主机多GPU分布式布置深度学习模型的方法, 其 特征在于: 所述S1在LSF集群下完成, 通过LSF的指 令申请计算资源, 然后在发送任务时使用 blaunch指令, 使作业得以发送到多台主机 。 3.根据权利要求2所述的基于LSF的多主机多GPU分布式布置深度学习模型的方法, 其 特征在于: 所述计算资源 包括: 需要创建的作业总数, 等于申请的GPU总数; 单台主机的图形处 理器GPU个数; 每台主机上的作业数, 不超过 单台主机的GPU个数。 4.根据权利要求2所述的基于LSF的多主机多GPU分布式布置深度学习模型的方法, 其 特征在于: 所述S2在程序内部实现, 具体包括以下步骤: S21: 每个LSF作业独占一个进程和GPU, 深度学习模型基于pytorch框架, 每个作业从环 境中读取'LSF_PM_TASKID'作为每 个任务的进程ran k; S22: 使用torch.distributed库初始化分布式进程组, 参数包括进程rank, 进程总数 world_size, 发现其他进 程的地点和方式init _method, 以及使用的后端通信方法backend; 使用nccl作为通信后端; S23: 读取训练用数据集; 数据集能够pytorch切分, 通过设置num_replicas为world_ size及rank为当前进程的rank, 使每个进程获取相应的数据切片; num_replicas是数据切 片方法的一个参数, 用于指定切片的个数 如果使用DistributedSampler进行数据切 片, 那么每个进程上训练的批的尺寸需除以 进程总数; DistributedSampler是Dataloader方法的一个参数, 用于指定用来读取数据的 子进程的个数; 使用torc h.utils.data.DataL oader进一 步读取每 个数据切片上 数据; 其中num_workers设为大于1的数用于开启子进程加快数据读取速度, pin_memory设为 True用于将数据直接读到进程所独占的GPU上, 减少数据在传输时的耗时; pin_memory是 Dataloader方法的一个参数, 用于指定是否使用锁页内存的方式读取 数据; S24: 构建模型并使用torc h.nn.parallel.Dist ributedDataParal lel包裹模型; S25: 训练模型; 在参数更新前使用全局归约All reduce方法同步不同主机上不同进程 的梯度; 基于数据并行, 为每一块需要训练的数据切片分配一块GPU, 并通过单独的一个进程进 行控制; LSF系统将深度学习任务以作业的形式复制并发送到多台主机上, 并为每一个任务 单独开辟一个进程, 不同进程内的任务彼此 是并行的。 5.一种计算机系统, 包括存储器、 处理器及储存在存储器上并能够在处理器上运行的 计算机程序, 其特征在于: 所述处理器执行所述计算机程序时实现如权利要求 1‑4任一项所 述的方法。 6.一种计算机可读存储介质, 其上储存有计算机程序, 其特征在于: 所述计算机程序被权 利 要 求 书 1/2 页 2 CN 114968559 A 2处理器执行时实现如权利要求1 ‑4任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114968559 A 3
专利 基于LSF的多主机多GPU分布式布置深度学习模型的方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 07:15:21
上传分享
举报
下载
原文档
(398.5 KB)
分享
友情链接
GB-T 32570-2016 集装箱用钢板及钢带.pdf
GB-T 8630-2013 纺织品 洗涤和干燥后尺寸变化的测定.pdf
DB14-T 712-2018 高速公路施工驻地、场站、工地试验室 建设指南 山西省.pdf
GW0204-2014 国家电子政务外网 安全管理系统技术要求与接口规范.pdf
CSA 企业网络安全合规框架体系.pdf
T-CFA 02010120.1—2017 耐低温耐大气腐蚀铸钢件.pdf
DB1407-T 37-2022 党政机关办公用房使用管理规范 晋中市.pdf
YD-T 3746-2020 车联网信息服务用户个人信息保护要求.pdf
GB51415—2020 有色金属冶炼废气治理技术标准.pdf
DB14-T 1980-2020 检测设备计量溯源管理规范 山西省.pdf
GB-T 16638.1-2008 空气动力学 概念、量和符号 第1部分:空气动力学常用术语.pdf
GB-T 5838.3-2015 荧光粉 第3部分:性能试验方法.pdf
ISO-IEC 27007 英文版 2022.pdf
GB-T 18451.1-2022 风力发电机组 设计要求.pdf
GB-T 20281-2020 信息安全技术 防火墙安全技术要求和测试评价方法.pdf
GB-T 1173-2013 铸造铝合金.pdf
GB-T 34953.2-2018 信息技术 安全技术匿名.pdf
GB-T 13043-2022 客车定型试验规程.pdf
炼石图解-网络数据安全风险评估实施指引V1.0.pdf
GB-T 12452-2022 水平衡测试通则.pdf
1
/
3
9
评价文档
赞助2.5元 点击下载(398.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。