专利 一种结合语法的文本语义相似度计算方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210252170.3 (22)申请日 2022.03.15 (71)申请人中南大学地址 410083 湖南省长沙市岳麓区麓山南路932号 (72)发明人龙军　向一平　刘磊　李浩然　 (74)专利代理机构长沙市融智专利事务所(普通合伙) 43114 专利代理师胡喜舟 (51)Int.Cl. G06F 40/253(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种结合语法的文本语义相似度计算方法 (57)摘要本发明公开了一种结合语法的文本语义相似度计算方法，包括获取待计算语义相似度的两个句子；通过深度语义交互模型提取两个句子的语义特征向量；分别构建两个句子的语法依存树，并进行结构化嵌入，分别获得两个句子的语法树特征向量；将两个句子各自的语义特征向量与语法树特征向量进行拼接，分别得到两个句子的最终语义特征向量；基于两个句子的最终语义特征向量计算得到两个句子的语义相似度。本发明的方案提取的句子特征结合了句子中的语法信息，提取到的特征更加全面、深入，充分考虑了句子中的上下文关系，计算得到的相似度准确性更高，同时兼顾平衡了准确率和计算效率。权利要求书2页说明书6页附图3页 CN 114580385 A 2022.06.03 CN 114580385 A 1.一种结合语法的文本语义相似度计算方法，其特征在于，包括：获取待计算语义相似度的两个句子；通过深度语义交互模型提取两个句子的语义特征向量；分别构建两个句子的语法依存树，并进行结构化嵌入，分别获得两个句子的语法树特征向量；将两个句子各自的语义特征向量与语法树特征向量进行拼接，分别得到两个句子的最终语义特征向量；基于两个句子的最终语义特征向量计算得到两个句子的语义相似度。 2.根据权利要求1所述的结合语法的文本语义相似度计算方法，其特征在于，所述深度语义交互模型为使用词MASK训练的BERT衍生模型。 3.根据权利要求1所述的结合语法的文本语义相似度计算方法，其特征在于，构建两个句子的语法依存树过程包括：分别对两个句子进行语法分析；基于语法分析并使用Stanford Dependencies所定义的依存树结构得到两个句子的语法依存树。 4.根据权利要求1至3任一项所述的结合语法的文本语义相似度计算方法，其特征在于，将两个句子的语法依存树进行结构化嵌入，分别获得两个句子的语法树特征向量，过程包括：对于每个句子的语法依存树，定义语法序列Cp为依存树节点的所有子节点，顺序为词汇在句子中的原始顺序；定义一个最长序列长度l；将语法序列Cp中的所有元素输入词嵌入模型中进行计算获取其词嵌入；如果语法序列 Cp中元素长度不足l，词嵌入以零矩阵填充以达到最长序列长度；如果语法序列Cp中元素长度超过l，则截断超过长度的元素，仅保留前l个元素，此时新得到的语法序列定义为分别对两个句子中每个句子中的所有词计算其得到两个句子的语法序列和分别将两个句子的语法序列输入一个双向LSTM神经网络中，得到每个句子中每个词的语法树嵌入，通过拼接从而得到每个句子的语法树特征向量。 5.根据权利要求4所述的结合语法的文本语义相似度计算方法，其特征在于，分别将两个句子的语法序列输入一个双向LSTM神经网络中，得到每个句子中每个词的语法树嵌入，通过拼接从而得到每个句子的语法树特征向量，具体包括：两个句子的语法序列输入一个双向LSTM神经网络中，该双向LSTM神经网络在t时刻的输出为：其中，表示t时刻双向LSTM神经网络的正向输出，表示t时刻双向LSTM神经网络的反向输出， wf和wb代表正向LSTM与反向LSTM的隐藏层状态， bt代表偏移量；权　利　要　求　书 1/2 页 2 CN 114580385 A 2对于词汇p，获取其语法序列在双向LSTM神经网络的正向网络和反向网络的最后一层状态，构建词汇p的语法树嵌入V＝[Ew,fm,bn]，其中，表示词汇p的词嵌入， fm表示双向LSTM网络中正向网络的最后一层计算结果， bn表示双向LSTM网络中反向网络的最后一层计算结果；对于每个句子中每一个词汇都获取其语法树嵌入，通过拼接从而得到每个句子的语法树特征向量。 6.根据权利要求1所述的结合语法的文本语义相似度计算方法，其特征在于，基于两个句子的最终语义特征向量计算得到两个句子的语义相似度，具体包括：将两个句子的最终语义特征向量输入最终的预测层计算出最终的语义相似度；预测层的计算过程包括：将两个句子的最终语义特征向量进行融合，输入一个多层感知机，多层感知机每个隐藏层使用双曲正切函数tanh作为激活函数，多层感知机的计算公式为：其中， s表示多层感知机的输出， W1和W2为参数， b1和b2为偏移量， MA和MB分别表示两个句子的最终语义特征向量， σ 代表tanh激活函数；多层感知机的输出继续送入一个全连接层，并且使用sigmoid函数作为激活函数，得到一个范围在[0， 1]的最终相似度，即为两个句子的语义相似度。权　利　要　求　书 2/2 页 3 CN 114580385 A 3

专利 一种结合语法的文本语义相似度计算方法

专利一种结合语法的文本语义相似度计算方法