(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210186688.1
(22)申请日 2022.02.28
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 高鹏至 何中军 李芝 吴华
(74)专利代理 机构 北京易光知识产权代理有限
公司 11596
专利代理师 阎敏 徐升升
(51)Int.Cl.
G06F 40/58(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种模型训练方法、 装置、 电子设备及存储
介质
(57)摘要
本公开提供了一种模型训练方法、 装置、 电
子设备及存储介质, 涉及人工智 能技术领域, 尤
其涉及自然语言处理技术领域。 具体实现方案
为: 获取多组句子对, 每组句子对包含源语言句
子和目标语言句子; 针对各组句子对, 确定句子
对中包含的源语言句子中的第一语义元素的第
一词向量, 并确定句子对中包含的目标语言句子
中的第二语义元素的第二词向量; 利用第一语义
元素的第一词向量和第二语义元素的第二词向
量, 确定句子对对应的样本对; 利用句子对和对
应的样本对确定第一损失函数, 采用第一损失函
数对模型进行训练。 本公开能够降低模型训练过
程的复杂度。
权利要求书2页 说明书10页 附图4页
CN 114580442 A
2022.06.03
CN 114580442 A
1.一种模型训练方法, 包括:
获取多组句子对, 每组句子对 包含源语言句子和目标语言句子;
针对各组所述句子对, 确定所述句子对中包含的所述源语言句子 中的第一语义元素的
第一词向量, 并确定所述句子对中包含的所述目标语言句子中的第二语义元素的第二词向
量;
利用所述第 一语义元素的第 一词向量和所述第 二语义元素的第 二词向量, 确定所述句
子对对应的样本对;
利用所述句子对和对应的样本对确定第 一损失函数, 采用所述第 一损失函数对所述模
型进行训练。
2.根据权利要求1所述的方法, 其中, 所述利用所述第 一语义元素的第 一词向量和所述
第二语义元 素的第二词向量, 确定所述句子对 对应的样本对, 包括:
按照预定概率, 对所述源语言句子中的各个第一语义元素的第一词向量进行置零, 并
对所述目标语言句子中的各个第二语义元 素的第二词向量进行置零, 得到所述样本对;
其中, 所述样本对包括第一样本和第二样本; 所述第一样本包括按照所述预定概率对
所述源语言句子中的各个第一语义元素的第一词向量进行置零后得到的数据结果, 所述第
二样本包括按照所述预定概率对所述目标语言句子中的各个第二语义元素的第二词向量
进行置零后得到的数据结果。
3.根据权利要求2所述的方法, 其中, 所述预定概 率为Pcut;
所述按照预定概率, 对所述源语言句子中的各个第一语义元素的第一词向量进行置
零, 包括: 针对所述源语言句子中的各个第一语义元素的第一词向量, 控制每个第一词向量
有Pcut的概率被替换为 零向量、 并且有1 ‑Pcut的概率保持不变;
所述按照预定概率, 对所述目标语言句子中的各个第 二语义元素的第 二词向量进行置
零, 包括: 针对所述目标语言句子中的各个第二语义元素的第二词向量, 控制每个第二词向
量有Pcut的概率被替换为 零向量、 并且有1 ‑Pcut的概率保持不变。
4.根据权利要求1至3中任一所述的方法, 其中, 所述利用所述句子对和对应的样本对
确定第一损失函数, 包括:
确定第一概率分布与 所述句子对中包含的目标语言句子的标签的交叉熵函数, 并确定
第一概率分布和第二概率分布的相对熵函数; 其中, 所述第一概率分布对应于所述句子对,
所述第二 概率分布对应于所述句子对 对应的样本对;
利用所述交叉熵函数、 所述相对熵函数和预设的超参数, 确定所述第一损失函数。
5.根据权利要求4所述的方法, 其中, 所述采用所述第一损失函数对所述模型进行训
练, 包括:
采用所述第一损 失函数, 利用 梯度下降法对所述模型的参数进行调整, 在所述调整过
程中, 从所述第一概率分布对应的模型参数和所述第二概率分布对应的模 型参数进行两侧
回传。
6.根据权利要求1至 5中任一所述的方法, 其中, 所述模型包括神经机器翻译NMT模型。
7.一种模型训练装置, 包括:
句子对获取模块, 用于获取多组句子对, 每组句子对 包含源语言句子和目标语言句子;
样本对确定模块, 用于针对各组所述句子对, 确定所述句子对中包含的所述源语言句权 利 要 求 书 1/2 页
2
CN 114580442 A
2子中的第一语义元素的第一词向量, 并确定所述句子对中包含的所述目标语言句子中的第
二语义元素的第二词向量; 利用所述第一语义元素的第一词向量和所述第二语义元素的第
二词向量, 确定所述句子对 对应的样本对;
训练模块, 用于利用所述句子对和对应的样本对确定第一损 失函数, 采用所述第一损
失函数对所述模型进行训练。
8.根据权利要求7 所述的装置, 其中, 所述样本对确定模块用于,
按照预定概率, 对所述源语言句子中的各个第一语义元素的第一词向量进行置零, 并
对所述目标语言句子中的各个第二语义元 素的第二词向量进行置零, 得到所述样本对;
其中, 所述样本对包括第一样本和第二样本; 所述第一样本包括按照所述预定概率对
所述源语言句子中的各个第一语义元素的第一词向量进行置零后得到的数据结果, 所述第
二样本包括按照所述预定概率对所述目标语言句子中的各个第二语义元素的第二词向量
进行置零后得到的数据结果。
9.根据权利要求8所述的装置, 其中, 所述预定概 率为Pcut;
样本对确定模块用于, 针对所述源语言句子中的各个第一语义元素的第一词向量, 控
制每个第一词向量有Pcut的概率被替换为零向量、 并且有1 ‑Pcut的概率保持不变; 针对所述
目标语言句子中的各个第二语义元素的第二词向量, 控制每个第二词向量有Pcut的概率被
替换为零向量、 并且有1 ‑Pcut的概率保持不变。
10.根据权利要求7至9中任一所述的装置, 其中, 所述训练模块包括:
损失函数生成子模块, 用于确定第 一概率分布与 所述句子对中包含的目标语言句子的
标签的交叉熵函数, 并确定第一概率分布和 第二概率分布的相对熵函数; 其中, 所述第一概
率分布对应于所述句子对, 所述第二 概率分布对应于所述句子对 对应的样本对;
利用所述交叉熵函数、 所述相对熵函数和预设的超参数, 确定所述第一损失函数。
11.根据权利要求10所述的装置, 其中, 所述训练模块包括:
调整子模块, 用于采用所述第一损 失函数, 利用 梯度下降法对所述模型的参数进行调
整, 在所述调整过程中, 从所述第一概率分布对应的模型参数和所述第二概率分布对应的
模型参数进行两侧回传。
12.根据权利要求7至11中任一所述的装置, 其中, 所述模型包括神经机器翻译NMT模
型。
13.一种电子设备, 包括:
至少一个处 理器; 以及
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处
理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于
使所述计算机执 行根据权利要求1 ‑6中任一项所述的方法。
15.一种计算机程序产品, 包括计算机程序, 所述计算机程序在被处理器执行时实现根
据权利要求1 ‑6中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114580442 A
3
专利 一种模型训练方法、装置、电子设备及存储介质
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:51上传分享