(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111514073.9
(22)申请日 2021.12.10
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 陈徐屹 刘炜新 卢宇翔 刘佳祥
黄世维
(74)专利代理 机构 中科专利商标代理有限责任
公司 11021
代理人 鄢功军
(51)Int.Cl.
G06N 20/00(2019.01)
G06K 9/62(2022.01)
(54)发明名称
深度学习模 型的训练方法、 自然语 言处理方
法和装置
(57)摘要
本公开提供了一种深度学习模型的训练方
法, 涉及人工智 能领域, 尤其涉及深度学习技术
和自然语言处理技术。 具体实现方案为: 将第一
样本数据输入第一深度学习模型, 得到第一输出
结果; 根据第一输出结果和第一目标输出结果,
训练第一深度学习模型, 得到经训练的第一深度
学习模型, 其中, 第一目标输出结果是通过利用
参考深度学习模 型处理第一样 本数据得到的; 将
第二样本数据输入第二深度学习模 型, 得到第二
输出结果; 以及根据第二输出结果和第二目标输
出结果, 训练第二深度学习模型, 得到经训练的
第二深度学习模 型。 本公开还提供了一种自然语
言处理方法、 装置、 电子设备和存 储介质。
权利要求书3页 说明书11页 附图7页
CN 114202076 A
2022.03.18
CN 114202076 A
1.一种深度学习模型的训练方法, 包括:
将第一样本数据输入第一深度学习模型, 得到第一输出 结果;
根据所述第一输出结果和第一目标输出结果, 训练所述第一深度学习模型, 得到经训
练的第一深度学习模型, 其中, 所述第一 目标输出结果是通过利用参考深度学习模型处理
所述第一样本数据得到的;
将第二样本数据输入第二深度学习模型, 得到第二输出 结果; 以及
根据所述第二输出结果和第二目标输出结果, 训练所述第二深度学习模型, 得到经训
练的第二深度学习模型, 其中, 所述第二 目标输出结果是通过所述经训练的第一深度学习
模型处理所述第二样本数据得到的。
2.根据权利要求1所述的方法, 其中, 所述第 一深度学习模型中的参数少于所述参考深
度学习模型中的参数, 且多于所述第二深度学习模型中的参数。
3.根据权利要求1或2所述的方法, 其中, 所述根据所述第一输出结果和第一目标输出
结果, 训练所述第一深度学习模型, 得到经训练的第一深度学习模型包括:
调整所述第 一深度学习 模型中的参数, 使得所述第 一输出结果与所述第 一目标输出结
果一致。
4.根据权利要求1或2所述的方法, 其中, 所述根据所述第二输出结果和第二目标输出
结果, 训练所述第二深度学习模型, 得到经训练的第二深度学习模型包括:
调整所述第 二深度学习 模型中的参数, 使得所述第 二输出结果与所述第 二目标输出结
果一致。
5.根据权利要求1所述的方法, 其中, 所述第一深度 学习模型包括N个网络层, 每一网络
层包括第一注意力模块; 所述第二深度学习模型包括M个网络层, 每一网络层包括第二注 意
力模块, N和M为大于1的整数, 且N大于 M;
其中, 所述第 二目标输出结果为第 N个网络层中的第 一注意力模块的输出, 所述第二输
出结果为第M个网络层中的第二注意力模块的输出。
6.根据权利要求1所述的方法, 其中, 所述第一深度 学习模型包括N个网络层, 每一网络
层包括第一注意力模块; 所述第二深度学习模型包括M个网络层, 每一网络层包括依次连接
的第二注意力模块和前馈模块, N和M为大于1的整数, 且N大于 M;
其中, 所述根据 所述第二输出结果和第二目标输出结果, 训练所述第 二深度学习模型,
得到经训练的第二深度学习模型包括:
在所述第二深度 学习模型中设置附加网络层, 所述附加网络层包括依次连接的附加 注
意力模块和附加前馈模块, 所述附加注意力模块与第M个网络层的前馈模块相连;
调整所述第二深度学习模型中的参数, 使得所述附加注意力模块的输出与第N个网络
层中的注意力模块的输出一 致; 以及
删除所述附加网络层, 得到经训练的第二深度学习模型。
7.根据权利要求1所述的方法, 还 包括:
将第三样本数据分别 输入所述参考深度学习 模型、 所述经训练 的第一深度学习 模型和
所述经训练的第二深度学习模型, 得到第一输出、 第二输出和第三输出; 以及
联合训练所述参考深度 学习模型、 所述经训练的第 一深度学习模型和所述经训练的第
二深度学习模型, 使得 所述第一输出、 所述第二输出和所述第三输出彼此一 致。权 利 要 求 书 1/3 页
2
CN 114202076 A
28.一种自然语言处 理方法, 包括:
将自然语言信息 输入深度学习模型, 得到 输出结果;
其中, 所述深度学习模型 是利用根据权利要求1至7任一项所述的方法训练的。
9.一种深度学习模型的训练装置, 包括:
第一获得模块, 用于将第一样本数据输入第一深度学习模型, 得到第一输出 结果;
第一训练模块, 用于根据所述第一输出结果和第一目标输出结果, 训练所述第一深度
学习模型, 得到经训练的第一深度学习模型, 其中, 所述第一目标输出结果是通过利用参考
深度学习模型处 理所述第一样本数据得到的;
第二获得模块, 用于将第二样本数据输入第二深度学习模型, 得到第二输出 结果; 以及
第二训练模块, 用于根据所述第二输出结果和第二目标输出结果, 训练所述第二深度
学习模型, 得到经训练的第二深度学习模型, 其中, 所述第二目标输出结果是通过所述经训
练的第一深度学习模型处 理所述第二样本数据得到的。
10.根据权利要求9所述的装置, 其中, 所述第一深度学习模型中的参数少于所述参考
深度学习模型中的参数, 且多于所述第二深度学习模型中的参数。
11.根据权利要求9或10所述的装置, 其中, 所述第一训练模块包括:
第一调整单元, 用于调整所述第一深度学习模型中的参数, 使得所述第一输出结果与
所述第一目标输出 结果一致。
12.根据权利要求9或10所述的装置, 其中, 所述第二训练模块包括:
第二调整单元, 用于调整所述第二深度学习模型中的参数, 使得所述第二输出结果与
所述第二目标输出 结果一致。
13.根据权利要求9所述的装置, 其中, 所述第一深度学习模型包括N个网络层, 每一网
络层包括第一注意力模块; 所述第二深度学习模型包括M个网络层, 每一网络层 包括第二注
意力模块, N和M为大于1的整数, 且N大于 M;
其中, 所述第 二目标输出结果为第 N个网络层中的第 一注意力模块的输出, 所述第二输
出结果为第M个网络层中的第二注意力模块的输出。
14.根据权利要求9所述的装置, 其中, 所述第一深度学习模型包括N个网络层, 每一网
络层包括第一注意力模块; 所述第二深度学习模型包括M个网络层, 每一网络层 包括依次连
接的第二注意力模块和前馈模块, N和M为大于1的整数, 且N大于 M;
其中, 所述第二训练模块包括:
设置单元, 用于在所述第二深度学习模型中设置附加网络层, 所述附加网络层包括依
次连接的附加注意力模块和附加前馈模块, 所述附加注意力模块与第M个网络层的前馈模
块相连;
第三调整单元, 用于调整所述第二深度学习模型中的参数, 使得所述附加注意力模块
的输出与第N个网络层中的注意力模块的输出一 致; 以及
删除单元, 用于删除所述附加网络层, 得到经训练的第二深度学习模型。
15.根据权利要求9所述的装置, 还 包括:
第三获得模块, 用于将第三样本数据分别输入所述参考深度学习模型、 所述经训练的
第一深度学习模型和所述经训练的第二深度学习模型, 得到第一输出、 第二输出和第三输
出; 以及权 利 要 求 书 2/3 页
3
CN 114202076 A
3
专利 深度学习模型的训练方法、自然语言处理方法和装置
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:22:23上传分享