(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111443369.6
(22)申请日 2021.11.30
(71)申请人 支付宝 (杭州) 信息技 术有限公司
地址 310000 浙江省杭州市西湖区西溪路
556号8层B段801-1 1
(72)发明人 王勤龙 章海涛
(74)专利代理 机构 北京永新同创知识产权代理
有限公司 1 1376
代理人 林锦辉 刘景峰
(51)Int.Cl.
G06N 20/00(2019.01)
G06N 3/08(2006.01)
G06F 9/50(2006.01)
(54)发明名称
用于深度学习模型训练的方法、 装置及系统
(57)摘要
本说明书实施例提供了用 于深度学习模型
训练的方法、 装置及系统。 包括计算节点和参数
服务器节点的深度学习资源管理系统与分布式
集群通信连接, 计算节点包括主计算节点和从计
算节点, 参数服务器节点用于存储和更新模型参
数。 在该方法中, 启动主计算节点和参数服务器
节点, 将一个数据分片下发给主计算节点, 以使
主计算节点和参数服务器节点执行一次模型迭
代计算; 在主计算节点的模型迭代计算过程中确
定主计算节 点的第一内存实际使用量; 根据第一
内存实际使用量预估第一内存使用量; 以及按照
所预估的第一内存使用量来配置并启动各个从
计算节点, 以使主计算节点、 各个从计算节点以
及参数服务器节点基于多个数据分片中的其他
数据分片进行模型训练。
权利要求书4页 说明书16页 附图6页
CN 114139723 A
2022.03.04
CN 114139723 A
1.一种用于深度学习模型训练的方法, 所述方法由深度学习资源管理系统来执行, 所
述深度学习资源管理系统与分布式集群通信连接, 所述分布式集群包括多个计算节点和至
少一个参数服务器节点, 所述多个计算节点包括主计算节点和从计算节点, 各个计算节点
与所述参数服务器节点 通信连接, 所述 参数服务器节点用于存 储和更新模型参数,
所述方法包括:
启动所述主计算节点和所述 参数服务器节点;
将由训练样本集经过分片处理得到的多个数据分片中的一个数据分片下发给所述主
计算节点, 以使 所述主计算节点和所述参数服务器节点基于该数据分片执行一次模型迭代
计算;
在所述主计算节点的所述模型迭代计算过程中, 确定所述主计算节点的第 一内存实际
使用量;
根据所确定的第一内存实 际使用量来预估参与所述深度学习模型训练的各个从计算
节点的第一内存使用量; 以及
按照所预估的第 一内存使用量来配置并启动所述各个从计算节点, 以使所述主计算节
点、 所述各个从计算节点以及所述参数服务器节点基于所述多个数据分片中的其他数据分
片进行模型训练。
2.如权利要求1所述的方法, 其中, 根据所确定的第 一内存实际使用量来预估用于所述
深度学习模型训练的各个从计算节点的第一内存使用量包括:
根据所述第 一内存实际使用量、 指定内存利用率以及第 一指定内存增量来预估所述各
个从计算节点的第一内存使用量; 或者
将所述第一内存实际使用量的指定倍数确定为预估的所述各个从计算节点的第一内
存使用量; 或者
将在所述第一内存实际使用量的基础上增加第二指定内存增量所得到的内存使用量
确定为预估的所述各个从计算节点的第一内存使用量。
3.如权利要求2所述的方法, 其中, 根据指定内存利用率、 所述第一内存实 际使用量以
及第一指定内存增量 来预估所述各个从计算节点的第一内存使用量包括:
在所述第一内存实际使用量的基础上增加所述第一指定内存增量以得到待确定内存
使用量;
根据所述待确定内存使用量来重新配置并启动第 一从计算节点, 以使所述第 一从计算
节点基于具有所述待确定内存使用量的内存来进行模型迭代计算;
在所述第一从计算节点的模型迭代计算过程中监测所述第一从计算节点的内存使用
率是否达到所述指定内存利用率;
在所述内存使用率达到所述指定 内存利用率 时, 将所述待确定 内存使用量确定为预估
的所述各个从计算节点的第一内存使用量; 以及
在所述内存使用率未达到所述指定 内存利用率 时, 在所述待确定内存使用量的基础上
增加所述第一指定内存增量以得到新的待确定内存使用量。
4.如权利要求1所述的方法, 还 包括:
在所述主计算节点和所述各个从计算节点进行模型训练 的过程中, 根据在该过程中采
集的所述参数服务器节点中各个时间点对应的第二内存实际使用量来预估所述参数服务权 利 要 求 书 1/4 页
2
CN 114139723 A
2器节点所需的第二内存使用量; 以及
根据所述第 二内存使用量对所述参数服务器节点进行重新配置, 以使所述参数服务器
节点基于所配置的具有所述第二内存使用量的内存进行模型训练。
5.如权利要求4所述的方法, 其中, 在所述主计算节点和所述各个从计算节点进行模型
训练的过程中, 根据在该过程中采集的所述参数服务器节点中各个时间点对应的第二内存
实际使用量 来预估所述 参数服务器节点所需的第二内存使用量包括:
在所述主计算节点和所述各个从计算节点进行模型训练 的过程中, 采集所述参数服务
器节点中各个时间点对应的第二内存实际使用量;
基于所采集的第 二内存实际使用量与所述各个时间点的对应关系, 拟合得到在所采集
的所述第二内存实际使用量对应的时间段内 内存使用量随时间变化的关系图; 以及
基于所述关系图来预估所述 参数服务器节点所需的所述第二内存使用量。
6.如权利要求5所述的方法, 其中, 基于所述关系图来预估所述参数服务器节点所需的
所述第二内存使用量包括:
当所述关系图中在所述 时间段内的内存使用量不再增加时, 基于不再增加的内存使用
量来预估所述 参数服务器节点所需的第二内存使用量;
当所述关系图中在所述 时间段内的内存使用量持续增加时, 基于所述关系图所表征的
第二内存实际使用量与时间点之间的关系以及所述参数服务器节点的训练结束时间点来
预估所述 参数服务器节点所需的第二内存使用量。
7.如权利要求1所述的方法, 还 包括:
在所述主计算节点和所述各个从计算节点进行模型训练 的过程中, 监测各个计算节点
的计算状态;
当监测到所述各个计算节点中存在计算失败的计算节点 时, 确定该计算节点未成功 处
理的数据分片;
按照所述计算失败的计算节点的配置方式来配置并启动一个新的计算节点; 以及
将所确定的数据分片下发给所述新的计算节点, 以使所述新的计算节点对该数据分片
执行模型迭代计算。
8.如权利要求7 所述的方法, 还 包括:
当数据分片下发给一个 计算节点时, 记录该 数据分片与该计算节点的对应关系;
当监测到计算节点针对所接收到的数据分片的计算状态是成功时, 将该计算节点与 该
数据分片的对应关系清除。
9.一种用于深度学习模型训练的装置, 应用于深度学习资源管理系统, 所述深度学习
资源管理系统与分布式集群通信连接, 所述分布式集群包括多个计算节点和至少一个参数
服务器节点, 所述多个计算节点包括主计算节点和从计算节点, 各个计算节点与所述参数
服务器节点 通信连接, 所述 参数服务器节点用于存 储和更新模型参数,
所述装置包括:
节点启动单 元, 启动所述主计算节点和所述 参数服务器节点;
数据分片下发单元, 将由训练样本集经过分片处理得到的多个数据分片中的一个数据
分片下发给所述主计算节点, 以使所述主计算节点和所述参数服务器节点基于该数据分片
执行一次模型迭代计算;权 利 要 求 书 2/4 页
3
CN 114139723 A
3
专利 用于深度学习模型训练的方法、装置及系统
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:22:31上传分享