安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111514073.9 (22)申请日 2021.12.10 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 陈徐屹 刘炜新 卢宇翔 刘佳祥  黄世维  (74)专利代理 机构 中科专利商标代理有限责任 公司 11021 代理人 鄢功军 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) (54)发明名称 深度学习模 型的训练方法、 自然语 言处理方 法和装置 (57)摘要 本公开提供了一种深度学习模型的训练方 法, 涉及人工智 能领域, 尤其涉及深度学习技术 和自然语言处理技术。 具体实现方案为: 将第一 样本数据输入第一深度学习模型, 得到第一输出 结果; 根据第一输出结果和第一目标输出结果, 训练第一深度学习模型, 得到经训练的第一深度 学习模型, 其中, 第一目标输出结果是通过利用 参考深度学习模 型处理第一样 本数据得到的; 将 第二样本数据输入第二深度学习模 型, 得到第二 输出结果; 以及根据第二输出结果和第二目标输 出结果, 训练第二深度学习模型, 得到经训练的 第二深度学习模 型。 本公开还提供了一种自然语 言处理方法、 装置、 电子设备和存 储介质。 权利要求书3页 说明书11页 附图7页 CN 114202076 A 2022.03.18 CN 114202076 A 1.一种深度学习模型的训练方法, 包括: 将第一样本数据输入第一深度学习模型, 得到第一输出 结果; 根据所述第一输出结果和第一目标输出结果, 训练所述第一深度学习模型, 得到经训 练的第一深度学习模型, 其中, 所述第一 目标输出结果是通过利用参考深度学习模型处理 所述第一样本数据得到的; 将第二样本数据输入第二深度学习模型, 得到第二输出 结果; 以及 根据所述第二输出结果和第二目标输出结果, 训练所述第二深度学习模型, 得到经训 练的第二深度学习模型, 其中, 所述第二 目标输出结果是通过所述经训练的第一深度学习 模型处理所述第二样本数据得到的。 2.根据权利要求1所述的方法, 其中, 所述第 一深度学习模型中的参数少于所述参考深 度学习模型中的参数, 且多于所述第二深度学习模型中的参数。 3.根据权利要求1或2所述的方法, 其中, 所述根据所述第一输出结果和第一目标输出 结果, 训练所述第一深度学习模型, 得到经训练的第一深度学习模型包括: 调整所述第 一深度学习 模型中的参数, 使得所述第 一输出结果与所述第 一目标输出结 果一致。 4.根据权利要求1或2所述的方法, 其中, 所述根据所述第二输出结果和第二目标输出 结果, 训练所述第二深度学习模型, 得到经训练的第二深度学习模型包括: 调整所述第 二深度学习 模型中的参数, 使得所述第 二输出结果与所述第 二目标输出结 果一致。 5.根据权利要求1所述的方法, 其中, 所述第一深度 学习模型包括N个网络层, 每一网络 层包括第一注意力模块; 所述第二深度学习模型包括M个网络层, 每一网络层包括第二注 意 力模块, N和M为大于1的整数, 且N大于 M; 其中, 所述第 二目标输出结果为第 N个网络层中的第 一注意力模块的输出, 所述第二输 出结果为第M个网络层中的第二注意力模块的输出。 6.根据权利要求1所述的方法, 其中, 所述第一深度 学习模型包括N个网络层, 每一网络 层包括第一注意力模块; 所述第二深度学习模型包括M个网络层, 每一网络层包括依次连接 的第二注意力模块和前馈模块, N和M为大于1的整数, 且N大于 M; 其中, 所述根据 所述第二输出结果和第二目标输出结果, 训练所述第 二深度学习模型, 得到经训练的第二深度学习模型包括: 在所述第二深度 学习模型中设置附加网络层, 所述附加网络层包括依次连接的附加 注 意力模块和附加前馈模块, 所述附加注意力模块与第M个网络层的前馈模块相连; 调整所述第二深度学习模型中的参数, 使得所述附加注意力模块的输出与第N个网络 层中的注意力模块的输出一 致; 以及 删除所述附加网络层, 得到经训练的第二深度学习模型。 7.根据权利要求1所述的方法, 还 包括: 将第三样本数据分别 输入所述参考深度学习 模型、 所述经训练 的第一深度学习 模型和 所述经训练的第二深度学习模型, 得到第一输出、 第二输出和第三输出; 以及 联合训练所述参考深度 学习模型、 所述经训练的第 一深度学习模型和所述经训练的第 二深度学习模型, 使得 所述第一输出、 所述第二输出和所述第三输出彼此一 致。权 利 要 求 书 1/3 页 2 CN 114202076 A 28.一种自然语言处 理方法, 包括: 将自然语言信息 输入深度学习模型, 得到 输出结果; 其中, 所述深度学习模型 是利用根据权利要求1至7任一项所述的方法训练的。 9.一种深度学习模型的训练装置, 包括: 第一获得模块, 用于将第一样本数据输入第一深度学习模型, 得到第一输出 结果; 第一训练模块, 用于根据所述第一输出结果和第一目标输出结果, 训练所述第一深度 学习模型, 得到经训练的第一深度学习模型, 其中, 所述第一目标输出结果是通过利用参考 深度学习模型处 理所述第一样本数据得到的; 第二获得模块, 用于将第二样本数据输入第二深度学习模型, 得到第二输出 结果; 以及 第二训练模块, 用于根据所述第二输出结果和第二目标输出结果, 训练所述第二深度 学习模型, 得到经训练的第二深度学习模型, 其中, 所述第二目标输出结果是通过所述经训 练的第一深度学习模型处 理所述第二样本数据得到的。 10.根据权利要求9所述的装置, 其中, 所述第一深度学习模型中的参数少于所述参考 深度学习模型中的参数, 且多于所述第二深度学习模型中的参数。 11.根据权利要求9或10所述的装置, 其中, 所述第一训练模块包括: 第一调整单元, 用于调整所述第一深度学习模型中的参数, 使得所述第一输出结果与 所述第一目标输出 结果一致。 12.根据权利要求9或10所述的装置, 其中, 所述第二训练模块包括: 第二调整单元, 用于调整所述第二深度学习模型中的参数, 使得所述第二输出结果与 所述第二目标输出 结果一致。 13.根据权利要求9所述的装置, 其中, 所述第一深度学习模型包括N个网络层, 每一网 络层包括第一注意力模块; 所述第二深度学习模型包括M个网络层, 每一网络层 包括第二注 意力模块, N和M为大于1的整数, 且N大于 M; 其中, 所述第 二目标输出结果为第 N个网络层中的第 一注意力模块的输出, 所述第二输 出结果为第M个网络层中的第二注意力模块的输出。 14.根据权利要求9所述的装置, 其中, 所述第一深度学习模型包括N个网络层, 每一网 络层包括第一注意力模块; 所述第二深度学习模型包括M个网络层, 每一网络层 包括依次连 接的第二注意力模块和前馈模块, N和M为大于1的整数, 且N大于 M; 其中, 所述第二训练模块包括: 设置单元, 用于在所述第二深度学习模型中设置附加网络层, 所述附加网络层包括依 次连接的附加注意力模块和附加前馈模块, 所述附加注意力模块与第M个网络层的前馈模 块相连; 第三调整单元, 用于调整所述第二深度学习模型中的参数, 使得所述附加注意力模块 的输出与第N个网络层中的注意力模块的输出一 致; 以及 删除单元, 用于删除所述附加网络层, 得到经训练的第二深度学习模型。 15.根据权利要求9所述的装置, 还 包括: 第三获得模块, 用于将第三样本数据分别输入所述参考深度学习模型、 所述经训练的 第一深度学习模型和所述经训练的第二深度学习模型, 得到第一输出、 第二输出和第三输 出; 以及权 利 要 求 书 2/3 页 3 CN 114202076 A 3

.PDF文档 专利 深度学习模型的训练方法、自然语言处理方法和装置

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 深度学习模型的训练方法、自然语言处理方法和装置 第 1 页 专利 深度学习模型的训练方法、自然语言处理方法和装置 第 2 页 专利 深度学习模型的训练方法、自然语言处理方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:22:23上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。