专利 用于深度学习模型训练的方法、装置及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111443369.6 (22)申请日 2021.11.30 (71)申请人支付宝（杭州）信息技术有限公司地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人王勤龙　章海涛　 (74)专利代理机构北京永新同创知识产权代理有限公司 1 1376 代理人林锦辉　刘景峰 (51)Int.Cl. G06N 20/00(2019.01) G06N 3/08(2006.01) G06F 9/50(2006.01) (54)发明名称用于深度学习模型训练的方法、装置及系统 (57)摘要本说明书实施例提供了用于深度学习模型训练的方法、装置及系统。包括计算节点和参数服务器节点的深度学习资源管理系统与分布式集群通信连接，计算节点包括主计算节点和从计算节点，参数服务器节点用于存储和更新模型参数。在该方法中，启动主计算节点和参数服务器节点，将一个数据分片下发给主计算节点，以使主计算节点和参数服务器节点执行一次模型迭代计算；在主计算节点的模型迭代计算过程中确定主计算节点的第一内存实际使用量；根据第一内存实际使用量预估第一内存使用量；以及按照所预估的第一内存使用量来配置并启动各个从计算节点，以使主计算节点、各个从计算节点以及参数服务器节点基于多个数据分片中的其他数据分片进行模型训练。权利要求书4页说明书16页附图6页 CN 114139723 A 2022.03.04 CN 114139723 A 1.一种用于深度学习模型训练的方法，所述方法由深度学习资源管理系统来执行，所述深度学习资源管理系统与分布式集群通信连接，所述分布式集群包括多个计算节点和至少一个参数服务器节点，所述多个计算节点包括主计算节点和从计算节点，各个计算节点与所述参数服务器节点通信连接，所述参数服务器节点用于存储和更新模型参数，所述方法包括：启动所述主计算节点和所述参数服务器节点；将由训练样本集经过分片处理得到的多个数据分片中的一个数据分片下发给所述主计算节点，以使所述主计算节点和所述参数服务器节点基于该数据分片执行一次模型迭代计算；在所述主计算节点的所述模型迭代计算过程中，确定所述主计算节点的第一内存实际使用量；根据所确定的第一内存实际使用量来预估参与所述深度学习模型训练的各个从计算节点的第一内存使用量；以及按照所预估的第一内存使用量来配置并启动所述各个从计算节点，以使所述主计算节点、所述各个从计算节点以及所述参数服务器节点基于所述多个数据分片中的其他数据分片进行模型训练。 2.如权利要求1所述的方法，其中，根据所确定的第一内存实际使用量来预估用于所述深度学习模型训练的各个从计算节点的第一内存使用量包括：根据所述第一内存实际使用量、指定内存利用率以及第一指定内存增量来预估所述各个从计算节点的第一内存使用量；或者将所述第一内存实际使用量的指定倍数确定为预估的所述各个从计算节点的第一内存使用量；或者将在所述第一内存实际使用量的基础上增加第二指定内存增量所得到的内存使用量确定为预估的所述各个从计算节点的第一内存使用量。 3.如权利要求2所述的方法，其中，根据指定内存利用率、所述第一内存实际使用量以及第一指定内存增量来预估所述各个从计算节点的第一内存使用量包括：在所述第一内存实际使用量的基础上增加所述第一指定内存增量以得到待确定内存使用量；根据所述待确定内存使用量来重新配置并启动第一从计算节点，以使所述第一从计算节点基于具有所述待确定内存使用量的内存来进行模型迭代计算；在所述第一从计算节点的模型迭代计算过程中监测所述第一从计算节点的内存使用率是否达到所述指定内存利用率；在所述内存使用率达到所述指定内存利用率时，将所述待确定内存使用量确定为预估的所述各个从计算节点的第一内存使用量；以及在所述内存使用率未达到所述指定内存利用率时，在所述待确定内存使用量的基础上增加所述第一指定内存增量以得到新的待确定内存使用量。 4.如权利要求1所述的方法，还包括：在所述主计算节点和所述各个从计算节点进行模型训练的过程中，根据在该过程中采集的所述参数服务器节点中各个时间点对应的第二内存实际使用量来预估所述参数服务权　利　要　求　书 1/4 页 2 CN 114139723 A 2器节点所需的第二内存使用量；以及根据所述第二内存使用量对所述参数服务器节点进行重新配置，以使所述参数服务器节点基于所配置的具有所述第二内存使用量的内存进行模型训练。 5.如权利要求4所述的方法，其中，在所述主计算节点和所述各个从计算节点进行模型训练的过程中，根据在该过程中采集的所述参数服务器节点中各个时间点对应的第二内存实际使用量来预估所述参数服务器节点所需的第二内存使用量包括：在所述主计算节点和所述各个从计算节点进行模型训练的过程中，采集所述参数服务器节点中各个时间点对应的第二内存实际使用量；基于所采集的第二内存实际使用量与所述各个时间点的对应关系，拟合得到在所采集的所述第二内存实际使用量对应的时间段内内存使用量随时间变化的关系图；以及基于所述关系图来预估所述参数服务器节点所需的所述第二内存使用量。 6.如权利要求5所述的方法，其中，基于所述关系图来预估所述参数服务器节点所需的所述第二内存使用量包括：当所述关系图中在所述时间段内的内存使用量不再增加时，基于不再增加的内存使用量来预估所述参数服务器节点所需的第二内存使用量；当所述关系图中在所述时间段内的内存使用量持续增加时，基于所述关系图所表征的第二内存实际使用量与时间点之间的关系以及所述参数服务器节点的训练结束时间点来预估所述参数服务器节点所需的第二内存使用量。 7.如权利要求1所述的方法，还包括：在所述主计算节点和所述各个从计算节点进行模型训练的过程中，监测各个计算节点的计算状态；当监测到所述各个计算节点中存在计算失败的计算节点时，确定该计算节点未成功处理的数据分片；按照所述计算失败的计算节点的配置方式来配置并启动一个新的计算节点；以及将所确定的数据分片下发给所述新的计算节点，以使所述新的计算节点对该数据分片执行模型迭代计算。 8.如权利要求7 所述的方法，还包括：当数据分片下发给一个计算节点时，记录该数据分片与该计算节点的对应关系；当监测到计算节点针对所接收到的数据分片的计算状态是成功时，将该计算节点与该数据分片的对应关系清除。 9.一种用于深度学习模型训练的装置，应用于深度学习资源管理系统，所述深度学习资源管理系统与分布式集群通信连接，所述分布式集群包括多个计算节点和至少一个参数服务器节点，所述多个计算节点包括主计算节点和从计算节点，各个计算节点与所述参数服务器节点通信连接，所述参数服务器节点用于存储和更新模型参数，所述装置包括：节点启动单元，启动所述主计算节点和所述参数服务器节点；数据分片下发单元，将由训练样本集经过分片处理得到的多个数据分片中的一个数据分片下发给所述主计算节点，以使所述主计算节点和所述参数服务器节点基于该数据分片执行一次模型迭代计算；权　利　要　求　书 2/4 页 3 CN 114139723 A 3

专利 用于深度学习模型训练的方法、装置及系统

专利用于深度学习模型训练的方法、装置及系统