专利 基于文本语义匹配的Stack Overflow相关问答检索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210513871.8 (22)申请日 2022.05.12 (71)申请人华南理工大学地址 510640 广东省广州市天河区五山路 381号 (72)发明人覃紫姗　吴一民　 (74)专利代理机构广州市华学知识产权代理有限公司 4 4245 专利代理师冯炳辉 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/31(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于文本语义匹配的Stack Overflow相关问答检索方法 (57)摘要本发明公开了一种基于文本语义匹配的 Stack Overflow相关问答检索方法，包括：利用 Stack Overflow的问答数据集构建语料库并训练词向量；构建并训练一个文本语义匹配的深度模型，深度模型包括：词向量层、 BiLSTM、交互注意力矩阵、多角度融合、池化层、多层次卷积结构和全连接层；基于深度模型预测查询和候选问答的语义相关性的大小将候选问答排序，排序后的候选问答作为检索结果。本发明基于文本语义匹配检索编程论坛Stack Overflow上的相关问答，使用交互注意力矩阵、多角度融合、池化层来深化BiLSTM的特征提取，同时利用多层次卷积结构从另一个角度丰富BiLSTM的特征提取，可提取到多种的文本语义匹配信息，进一步提升Stack Overflow相关问答的检索性能。权利要求书3页说明书7页附图2页 CN 115017279 A 2022.09.06 CN 115017279 A 1.基于文本语义匹配的Stack Overflow相关问答检索方法，其特征在于，包括以下步骤： 1)获取Stack Overflow的问答数据集，并对问答数据集的文本进行预处理，包括清洗文本、分词、移除停用词和低频词以及词干化；将预处理后的问答数据集的文本构建成语料库，基于语料库训练词向量；将预处理后的问答数据集的文本构建成查询和候选问答的文本对，并把查询和候选问答的文本对按比例划分为训练集和测试集； 2)构建一个文本语义匹配的深度模型，利用步骤1)所述的训练集对构建的深度模型进行训练，得到最优模型；其中，所述的深度模型基于双向长短期记忆网络BiLSTM进行改进，其情况为：基于步骤1)所训练的词向量构造的词向量层，将查询和候选问答的文本对转换为查询向量与候选问答向量；采用BiLSTM将查询向量和候选问答向量转换为查询的上下文向量与候选问答的上下文向量；在BiLSTM后计算查询的上下文向量和候选问答的上下文向量之间的交互注意力矩阵，利用交互注意力矩阵分别获取查询的语义交互向量和候选问答的语义交互向量，这一步目的是提取语义交互特征，促进查询和候选问答的文本对之间的语义信息交流；采用多角度融合，以几种不同的计算方式把查询和候选问答各自的上下文向量和语义交互向量进行融合，得到查询的融合向量和候选问答的融合向量；采用池化层，以进一步突出多角度融合的效果，利用最大池化和平均池化从查询的融合向量和候选问答的融合向量提取查询的序列匹配向量和候选问答的序列匹配向量；采用多层次卷积结构，以丰富特征提取，多层次卷积结构根据BiLSTM生成的查询的上下文向量与候选问答的上下文向量来提取查询的卷积匹配向量和候选问答的卷积匹配向量；结合查询的序列匹配向量、候选问答的序列匹配向量、查询的卷积匹配向量和候选问答的卷积匹配向量，采用一个多层的全连接层进行语义相关性的预测； 3)利用步骤2)得到的最优模型，预测步骤1)所述的测试集的查询和候选问答的文本对之间的语义相关性，根据相关性的大小排列候选问答，排序后的列表作为检索结果。 2.根据权利要求1所述的基于文本语义匹配的Stack Overflow相关问答检索方法，其特征在于，在步骤1)中，对于问答数据集的文本预处理，构建语料库并训练向量，构建查询和候选问答的文本对，执行以下操作： 1.1)获取Stack Overflow的问答数据集，对问答数据集的文本进行预处理；首先清洗文本：利用正则表达式去除文本中的超文本标签、代码片段、域名、标点符号和数字，将文本中的英文字母小写化；然后基于文本的单词之间的空格对文本进行分词；移除文本中常见的英文停用词，根据设定的阈值移除文本中词频低于阈值的单词；基于Porter算法将文本中的单词进行词干化处理； 1.2)将预处理后的问答数据集的文本构建成语料库；基于语料库采用词向量算法来训练词向量； 1.3)将预处理后的问答数据集的文本构建成查询和候选问答的文本对{Q,C}，其中每个查询的文本对应多个候选问答的文本，并把查询和候选问答的文本对按比例划分为训练集和测试集。 3.根据权利要求1所述的基于文本语义匹配的Stack Overflow相关问答检索方法，其特征在于，所述步骤2)包括以下步骤： 2.1)构建一个文本语义匹配的深度模型；权　利　要　求　书 1/3 页 2 CN 115017279 A 22.2)深度模型的输入为查询和候选问答的文本对{Q,C}；为了将输入的文本对转换成向量以方便深度模型进一步处理，利用步骤1)所训练的词向量的参数构建词向量层，用词向量层将查询和候选问答的文本对{Q,C}转换为查询词向量q＝{qi},i＝1,2,...,N和候选问答词向量c＝{cj},j＝1,2,...,M，其中qi和cj是查询和候选问答的文本中第i个和第j个词的词向量， N和M是查询和候选问答的文本的长度； 2.2)为了将查询词向量和候选词向量中的每个单词与前后的文本联系起来，采用 BiLSTM在查询词向量q和候选问答词向量c的前向和后向共两个方向上依次提取查询和候选问答的上下文特征，获得查询的上下文向量和候选问答的上下文向量其中和是查询和候选问答的第i个和第j个词的上下文向量：式中，符号→和←分别代表BiLSTM的前向操作和后向操作； 2.3)为促进查询和候选问答之间的语义相关性的特征，对于BiLSTM获得查询的上下文向量和候选问答的上下文向量基于交互注意力机制，采用向量间的点乘算法计算和之间的交互注意力矩阵为实数集，交互注意力矩阵E中第i行、第j列的值为 eij， eij表示查询的文本中第i个单词与候选问答的文本中第j个单词之间的注意力权重得分，注意力权重得分的高低代表语义相关性的大小；基于交互注意力矩阵E、查询的上下文向量和候选问答的上下文向量获取查询的语义交互向量和候选问答的语义交互向量式中，先利用soft max函数对注意力权重得分eij进行归一化， eiu表示对eij从E的列方向上进行加权归一化，此时eiu的下标u从1变化到M， euj表示对eij从E的行方向上进行加权归一化，此时euj的下标u从1变化到N；并基于BiLSTM的隐藏单元维度d将归一化之后的权重乘以使注意力权重得分的梯度更加稳健，再将得到的结果与查询的上下文向量和候选问答的上下文向量进行加权求和；其中，表示查询的文本中第i个单词与候选问答的文本的所有单词之间的语义交互向量，表示候选问答的文本中第j个单词与查询的文本的所有单词之间的语义交互向量； 2.4)为获取语义匹配特征，对查询和候选问答分别执行多角度融合；将查询和候选问答各自的上下文向量和语义交互向量以拼接、相减、相乘的方式进行融合，具体为：将上下文向量、语义交互向量、上下文向量与语义交互向量相减的结果、上下文向量与语义交互向量相乘的结果拼接在一起，获得融合向量，其中，对于上下文向量与语义交互向量相减的结果、上下文向量与语义交互向量相乘的结果，还要输入到一个单层的权　利　要　求　书 2/3 页 3 CN 115017279 A 3

专利 基于文本语义匹配的Stack Overflow相关问答检索方法

专利基于文本语义匹配的Stack Overflow相关问答检索方法