(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210358922.4
(22)申请日 2022.04.06
(65)同一申请的已公布的文献号
申请公布号 CN 114723045 A
(43)申请公布日 2022.07.08
(73)专利权人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦二层
(72)发明人 王硕寰 巩伟宝 吴志华 孙宇
丁思宇 韩雅倩 赵晏彬 刘雨昂
于佃海
(74)专利代理 机构 北京清亦华知识产权代理事
务所(普通 合伙) 11201
专利代理师 单冠飞(51)Int.Cl.
G06N 3/08(2006.01)
G06N 3/04(2006.01)
G06K 9/62(2022.01)
G06F 9/50(2006.01)
(56)对比文件
CN 112966712 A,2021.0 6.15
CN 113704388 A,2021.1 1.26
审查员 邵金
(54)发明名称
模型训练方法、 装置、 系统、 设备、 介质及程
序产品
(57)摘要
本申请公开了一种模型训练方法、 装置、 系
统、 设备、 介质及程序产品, 涉及计算机技术领
域, 尤其涉及人工智能, 自然语言处理、 深度学习
技术领域。 在申请的一些实施例中, 至少一个第
一集群对样 本数据集进行训练得到训练数据; 第
二集群, 根据训练数据对训练模型进行训练; 将
生成训练数据的模型和预训练模型分别部署在
不同的集群上, 对模型进行跨集群训练, 第一集
群和第二集群 之间只需要传输训练数据, 而无需
传输模型参数, 集群间较低宽带通信即能满足本
申请的跨集群训练, 基于不同阶段的训练任务,
将生成训练数据任务和预训练模型训练任务分
别放置于不同的处理器中, 提升硬件处理速度,
提高模型的训练效率。
权利要求书3页 说明书13页 附图5页
CN 114723045 B
2022.12.20
CN 114723045 B
1.一种模型训练系统, 其中, 包括至少一个第一集群和与所述至少一个第一集群通信
的第二集群, 其中,
所述至少一个第 一集群, 用于获取样本数据集, 并根据所述样本数据集生成训练数据,
并将所述训练数据发送至所述第二 集群;
所述第二集群, 用于根据所述至少一个第 一集群发送的所述训练数据对预训练模型进
行训练;
其中, 所述至少一个第一集群, 在根据所述样本数据集生成训练数据时, 用于: 将所述
样本数据集输入初始生成器中, 生成所述训练数据, 并根据所述样本数据集对初始生成器
进行训练, 得到训练完成的生成器;
所述第二集群, 在根据 所述至少一个第 一集群发送的所述训练数据对预训练模型进行
训练时, 用于: 根据所述训练数据对初始判别器进行训练, 得到训练完成的判别器;
其中, 所述初始生成器和所述初始判别器分别部署于所述第一集群和所述第二集群
上, 所述第一 集群和所述第二 集群之间只需传输所述训练数据, 无需传输模型参数。
2.如权利要求1所述的系统, 其中, 所述至少一个第一集群内部以第一带宽进行通信,
所述第二集群内部以第二带宽进 行通信, 所述至少一个第一集群和所述第二集群之 间通过
第三带宽相互通信, 其中, 所述第一带宽大于所述第三带宽, 所述第二带宽大于所述第三带
宽。
3.如权利要求1所述的系统, 其中, 所述至少一个第 一集群和所述第 二集群之间互为异
构集群。
4.如权利要求3所述的系统, 其中, 所述至少一个第 一集群和所述第 二集群所采用的处
理器不同。
5.如权利要求4所述的系统, 其中, 所述至少一个第一集群采用的处理器为图形处理
器, 所述第二 集群采用的处 理器为嵌入式神经网络处 理器。
6.如权利要求1所述的系统, 其中, 所述第一集群为多个, 且所述多个第一集群处理的
数据类型不同。
7.如权利要求1所述的系统, 其中, 所述样本数据集为第一文本样本数据集, 所述至少
一个第一 集群在将所述样本数据集输入初始生成器中, 生成所述训练数据时, 用于:
对所述第一文本样本数据集中的文本片段替换为设定标识, 得到替换后的第 一文本样
本数据集, 将所述替换后的第一文本样本数据集输入初始生成器中, 得到第二文本样本数
据;
所述第二集群, 在所述根据所述训练数据对初始判别器进行训练, 得到训练完成的判
别器时, 用于:
根据所述第二文本样本数据对初始判别器进行训练, 得到训练完成的判别器。
8.如权利要求1所述的系统, 其中, 所述至少一个第 一集群在根据 所述样本数据集对初
始生成器进行训练, 得到训练完成的生成器时, 用于:
将初始生成参数输入递归神经网络建立所述初始生成器;
将所述样本数据集输入所述初始生成器中进行 预训练; 以及
根据概率分布函数转 化为概率输出, 得到预训练后的网络参数;
根据所述预训练后的网络参数 更新所述初始生成器的网络参数, 得到所述 生成器。权 利 要 求 书 1/3 页
2
CN 114723045 B
29.如权利要求1所述的系统, 其中, 所述第 二集群在根据 所述训练数据对初始判别器进
行训练, 得到训练完成的判别器时, 用于:
将初始判别参数输入至卷积神经网络建立所述初始判别器;
将所述训练数据输入初始判别器中进行 预训练;
根据概率分布函数转 化为概率输出; 以及
根据最小化交叉熵更新所述初始判别器的所述初始判别参数, 得到预训练后的判别参
数;
根据所述预训练后的判别参数 更新所述初始判别器的网络参数, 得到所述判别器。
10.一种模型训练方法, 其中, 应用于第 一集群, 所述第 一集群与第 二集群通信连接, 所
述方法包括:
获取样本数据集;
根据所述样本数据集, 生成训练数据;
将所述训练数据发送至所述第 二集群, 以供第 二集群根据 所述训练数据对预训练模型
进行训练;
其中, 所述 根据所述样本数据集, 生成训练数据, 包括:
将所述样本数据集输入初始生成器中, 生成所述训练数据, 并根据所述样本数据集对
初始生成器进行训练, 得到训练完成的生成器;
其中, 所述第一 集群和所述第二 集群之间只需传输所述训练数据, 无需传输模型参数。
11.如权利要求10所述的方法, 其中, 所述样本数据集为第一文本样本数据集, 所述将
所述样本数据集输入初始生成器中, 生成所述训练数据, 包括:
对所述第一文本样本数据集中的文本片段替换为设定标识, 得到替换后的第 一文本样
本数据集, 将所述替换后的第一文本样本数据集输入初始生成器中, 得到第二文本样本数
据。
12.如权利要求10所述的方法, 其中, 所述根据所述样本数据集对初始生成器进行训
练, 得到训练完成的生成器, 包括:
将初始生成参数输入递归神经网络建立所述初始生成器;
将所述样本数据集输入所述初始生成器中进行 预训练; 以及
根据概率分布函数转 化为概率输出, 得到预训练后的网络参数;
根据所述预训练后的网络参数 更新所述初始生成器的网络参数, 得到所述 生成器。
13.如权利要求10所述的方法, 其中, 所述第一集群内部以第一带宽进行通信, 所述第
二集群内部以第二带宽进 行通信, 所述第一集群和所述第二集群之 间通过第三带宽相互通
信, 其中, 所述第一带宽大于所述第三带宽, 所述第二带宽大于所述第三带宽 。
14.如权利要求10所述的方法, 其中, 所述至少一个第 一集群和所述第 二集群之间互为
异构集群。
15.一种模型训练方法, 其中, 应用于第二集群, 所述第二集群与至少一个第一集群通
信连接, 所述方法包括:
接收所述至少一个第一 集群发送的样本数据集;
根据训练数据对预训练模型进行训练;
其中, 所述 根据所述训练数据对预训练模型进行训练, 包括:权 利 要 求 书 2/3 页
3
CN 114723045 B
3
专利 模型训练方法、装置、系统、设备、介质及程序产品
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:17:08上传分享