安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210252170.3 (22)申请日 2022.03.15 (71)申请人 中南大学 地址 410083 湖南省长 沙市岳麓区麓山 南 路932号 (72)发明人 龙军 向一平 刘磊 李浩然  (74)专利代理 机构 长沙市融智专利事务所(普 通合伙) 43114 专利代理师 胡喜舟 (51)Int.Cl. G06F 40/253(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种结合语法的文本 语义相似度计算方法 (57)摘要 本发明公开了一种结合语法的文本语义相 似度计算方法, 包括获取待计算语义相似度的两 个句子; 通过深度语义交互模型提取两个句子的 语义特征向量; 分别构建两个句子的语法依存 树, 并进行结构化嵌入, 分别获得两个句子的语 法树特征向量; 将两个句子各自的语义特征向量 与语法树特征向量进行拼接, 分别得到两个句子 的最终语义特征向量; 基于两个句子的最终语义 特征向量计算得到两个句子的语义相似度。 本发 明的方案提取的句子特征结合了句子中的语法 信息, 提取到的特征更加全面、 深入, 充分考虑了 句子中的上下文关系, 计算得到的相似度准确性 更高, 同时兼顾 平衡了准确率和计算效率。 权利要求书2页 说明书6页 附图3页 CN 114580385 A 2022.06.03 CN 114580385 A 1.一种结合语法的文本语义相似度计算方法, 其特 征在于, 包括: 获取待计算语义相似度的两个句子; 通过深度语义交 互模型提取两个句子的语义特 征向量; 分别构建两个句子的语法依存树, 并进行结构化嵌入, 分别获得两个句子的语法树特 征向量; 将两个句子各自的语义特征向量与语法树特征向量进行拼接, 分别得到两个句子的最 终语义特 征向量; 基于两个句子的最终语义特 征向量计算得到 两个句子的语义相似度。 2.根据权利要求1所述的结合语法的文本语义相似度计算方法, 其特征在于, 所述深度 语义交互模型为使用词MASK训练的BERT衍 生模型。 3.根据权利要求1所述的结合语法的文本语义相似度计算方法, 其特征在于, 构建两个 句子的语法依存树过程包括: 分别对两个句子进行语法分析; 基于语法分析并使用Stanford  Dependencies所定义的依存树结构得到两个句子的语 法依存树。 4.根据权利要求1至3任一项所述的结合语法的文本语义相似度计算方法, 其特征在 于, 将两个句子的语法依存树进 行结构化嵌入, 分别获得两个句子的语法树特征向量, 过程 包括: 对于每个句子的语法依存树, 定义语法序列Cp为依存树节点的所有子节点, 顺序为词汇 在句子中的原 始顺序; 定义一个最长序列长度l; 将语法序列Cp中的所有元素输入词嵌入模型中进行计算获取其词嵌入; 如果语法序列 Cp中元素长度不足l, 词嵌入以零矩阵填充以达到最长序列长度; 如果语法序列Cp中元素长 度超过l, 则截断超过长度的元 素, 仅保留前l个元 素, 此时新得到的语法序列定义 为 分别对两个句子中每个句子中的所有词计算其 得到两个句子的语法序列 和 分别将两个句子的语法序列输入一个双向LSTM神经网络中, 得到每个句子 中每个词的 语法树嵌入, 通过拼接从而得到每 个句子的语法树特 征向量。 5.根据权利要求4所述的结合语法的文本语义相似度计算方法, 其特征在于, 分别将两 个句子的语法序列输入一个双向LSTM神经网络中, 得到每个句子中每个词的语法树嵌入, 通过拼接从而得到每 个句子的语法树特 征向量, 具体包括: 两个句子的语法序列输入一个双向LSTM神经网络中, 该双向LSTM神经网络在t时刻的 输出为: 其中, 表示t时刻双向LSTM神经网络的正向输出, 表示t时刻双向LSTM神经网络的 反向输出, wf和wb代表正向LSTM与反向LSTM的隐藏层状态, bt代表偏移量;权 利 要 求 书 1/2 页 2 CN 114580385 A 2对于词汇p, 获取其语法序列在双向LSTM神经网络的正向网络和反向网络的最后一层 状态, 构建词汇p的语法树嵌入V=[Ew,fm,bn], 其中, 表示词汇p的词嵌入, fm表示 双向LSTM网络中正向网络的最后一层计算结果, bn表示双向LSTM网络中反向网络的最后一 层计算结果; 对于每个句子 中每一个词汇都获取其语法树嵌入, 通过拼接从而得到每个句子的语法 树特征向量。 6.根据权利要求1所述的结合语法的文本语义相似度计算方法, 其特征在于, 基于两个 句子的最终语义特 征向量计算得到 两个句子的语义相似度, 具体包括: 将两个句子的最终语义特 征向量输入最终的预测层计算出最终的语义相似度; 预测层的计算过程包括: 将两个句子的最终语义特征向量进行融合, 输入一个多层感 知机, 多层感知机每个隐藏层使用双曲正切函数tanh作为激活函数, 多层感知机的计算公 式为: 其中, s表示多层感知机的输出, W1和W2为参数, b1和b2为偏移量, MA和MB分别表示两个句 子的最终语义特 征向量, σ 代 表tanh激活函数; 多层感知机的输出继续送入一个全连接层, 并且使用sigmoid函数作 为激活函数, 得到 一个范围在[0, 1]的最终相似度, 即为两个句子的语义相似度。权 利 要 求 书 2/2 页 3 CN 114580385 A 3

.PDF文档 专利 一种结合语法的文本语义相似度计算方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种结合语法的文本语义相似度计算方法 第 1 页 专利 一种结合语法的文本语义相似度计算方法 第 2 页 专利 一种结合语法的文本语义相似度计算方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:10上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。