安全公司报告
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210360834.8 (22)申请日 2022.04.07 (65)同一申请的已公布的文献号 申请公布号 CN 114490950 A (43)申请公布日 2022.05.13 (73)专利权人 联通 (广东) 产业互联网有限公司 地址 510000 广东省广州市黄埔区(中新广 州知识城)亿创街1号 406房之555 (72)发明人 肖清 赵文博 李剑锋 许程冲  周丽萍  (74)专利代理 机构 广州润禾知识产权代理事务 所(普通合伙) 44446 专利代理师 郑永泉 欧秋望 (51)Int.Cl. G06F 16/33(2019.01)G06F 40/289(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (56)对比文件 CN 113705772 A,2021.1 1.26 CN 113159945 A,2021.07.23 US 2021326 660 A1,2021.10.21 CN 110347839 A,2019.10.18 CN 114003698 A,202 2.02.01 审查员 陈曦 (54)发明名称 编码器模 型的训练方法及存储介质、 相似度 预测方法及系统 (57)摘要 本发明提供编码器模型的训练方法及存储 介质、 相似度预测方法及系统, 包括: 将两个文本 序列输入嵌入层得到文本序列向量; 将两个文本 序列向量输入孪生神经网络编码器模 型, 以使其 基于相同的神经网络参数确定隐状态; 根据神经 网络参数构造自监督损失函数; 将隐状态输入池 化层以使其根据隐状态进行池化处理, 根据池化 处理后的文本序列向量确定两个文本序列的相 似度, 并以其构造有监督损失函数; 根据自监督 和有监督损失函数确定损失函数, 以更新神经网 络参数; 继续将新的文本序列输入直至损失函数 的数值为最小值。 该方法大幅提高了模型在计算 文本序列相似度时的推理带宽, 且基于已训练的 神经网络编码器模型能够实现两个文本序列相 似度的精准计算。 权利要求书2页 说明书7页 附图5页 CN 114490950 B 2022.07.12 CN 114490950 B 1.一种深度神经网络编码器模型的训练方法, 其特 征在于, 包括: 对两个不同的文本序列执 行训练操作; 所述训练操作为: 将两个所述文本序列输入嵌入层进行向量 化, 得到两个文本序列向量; 将两个所述文本序列向量输入孪生神经网络编码器模型, 以使所述神经网络编码器模 型基于相同的神经网络参数确定 两个所述文本序列向量的隐状态; 同时根据所述神经网络参数构造所述神经网络编码器模型的自监 督损失函数; 所述自监 督损失函数为: ; 其中, 表示概率密度函数, 为所述神经网络参数, 和 分别表示遮掩语言模型 和下一句预测模型对应输出层的参数, 与 分别为遮掩语言模型和下一句预测模型的训 练数据集, 和 分别为遮掩语言模型的预测词语和真实词语, 表示下一句预测模型输 出的与前后两个文本序列的连接关系, 表示与前后两个文本序列的真实连接关系; 将两个所述文本序列向量的隐状态输入池化层, 以使所述池化层根据两个所述文本序 列向量的隐状态对两个所述文本序列向量进 行池化处理, 根据池化处理后的两个所述文本 序列向量确定 两个所述文本序列的相似度; 根据两个所述文本序列的相似度构造所述神经网络编码器模型的有监 督损失函数; 所述有监 督损失函数为: ; 其中, 为 和 的真实文本相似度, 为每次执行训练操作时所抓取的文本序列的 数量; 根据所述自监督损失函数和所述有监督损失函数确定所述神经网络编码器模型的损 失函数, 以使所述神经网络编码器模型根据所述损失函数 更新神经网络参数; 继续对新的两个不同的文本序列执行所述训练操作直至所述损失函数的数值为最小 值, 得到已训练的神经网络编码器模型。 2.根据权利要求1所述的深度神经网络编码器模型的训练方法, 其特 征在于, 根据所述自监督损失函数和所述有监督损失函数确定所述神经网络编码器模型的损 失函数, 具体包括: 将所述自监督损失函数以及所述有监督损失函数 的和作为所述神经网 络编码器模型的损失函数。 3.根据权利要求1所述的深度神经网络编码器模型的训练方法, 其特 征在于, 根据池化处理后的两个所述文本序列向量确定两个所述文本序列的相似度, 具体包 括: 利用式子 确定两个所述文本序列的相似度; 其中, 为两个所述文本序列的相似度, 和 分别表示两个文本序列, 为两个池化处理后的文本序列向量的向量积; 为两个池化处理后的文本权 利 要 求 书 1/2 页 2 CN 114490950 B 2序列向量的模的乘积。 4.根据权利要求1所述的深度神经网络编码器模型的训练方法, 其特征在于, 所述损失 函数为: ; 其中, 为所述自监督损失函数; 为所述有监督损失函数, 为用于调整有监 督损失函数和自监 督损失函数的权 重的超参数, 满足小于1。 5.根据权利要求1所述的深度神经网络编码器模型的训练方法, 其特征在于, 所述神经 网络编码器模型基于相同的神经网络参数确定两个所述文本序列向量的隐状态, 具体包 括: 所述神经网络编码器模型利用式子 确定两个所述文本序列向量 的隐状态; 其中, 为文本序列向量的隐状态, 为非线性激活函数, 为注意力机制变 换, 为所述神经网络参数, 为输入的文本序列向量。 6.一种文本序列的相似度预测方法, 其特 征在于, 将两个不同的文本序列输入嵌入层进行向量 化, 得到两个文本序列向量; 将两个所述文本序列向量输入由权利要求1~5任一项所述的深度神经网络编码器模型 的训练方法训练得到的孪生神经网络编 码器模型, 以使所述神经网络编码器模型输出两个 所述文本序列向量的隐状态; 将两个所述文本序列向量的隐状态输入池化层, 以使所述池化层根据两个所述文本序 列向量的隐状态对两个所述文本序列向量进行池化处 理; 根据池化处 理后的两个文本序列向量确定 两个所述文本序列的相似度。 7.一种文本序列的相似度 预测系统, 其特征在于, 包括: 词输入模块、 词嵌入模块、 由权 利要求1~5任一项所述的深度神经网络编 码器模型的训练方法训练得到的孪生神经网络编 码器模型、 隐状态池化模块、 向量相似度计算模块; 所述词输入模块用于将外部输入的两种不同的文本数据序列化得到两个不同的文本 序列, 并将其输出至所述词嵌入 模块; 所述词嵌入模块用于将两个所述文本序列进行向量化, 得到两个文本序列向量并将其 输出至所述神经网络编码器模型; 所述神经网络编码器模型用于基于所述神经网络参数确定两个所述文本序列向量的 隐状态, 并将其输出至隐状态池化模块; 所述隐状态池化模块用于根据两个所述文本序列向量的隐状态对两个所述文本序列 向量进行池化处 理, 并将池化处 理后的文本序列向量输出至向量相似度计算模块; 所述向量相似度计算模块用于根据池化处理后的两个文本序列向量确定两个文本序 列的相似度。 8.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被 处理器执行时实现权利要求 1~5任一项所述的深度神经网络编码 器模型的训练方法, 和/或 权利要求6所述的文本序列的相似度预测方法。权 利 要 求 书 2/2 页 3 CN 114490950 B 3

.PDF文档 专利 编码器模型的训练方法及存储介质、相似度预测方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 编码器模型的训练方法及存储介质、相似度预测方法及系统 第 1 页 专利 编码器模型的训练方法及存储介质、相似度预测方法及系统 第 2 页 专利 编码器模型的训练方法及存储介质、相似度预测方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:52:02上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。