(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210513871.8
(22)申请日 2022.05.12
(71)申请人 华南理工大 学
地址 510640 广东省广州市天河区五山路
381号
(72)发明人 覃紫姗 吴一民
(74)专利代理 机构 广州市华学知识产权代理有
限公司 4 4245
专利代理师 冯炳辉
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 16/31(2019.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于文本语义匹配的Stack Overflow相关
问答检索方法
(57)摘要
本发明公开了一种基于文本语义匹配的
Stack Overflow相关问答检索方法, 包括: 利用
Stack Overflow的问答数据集构建语料库并训
练词向量; 构建并训练一个文本语义匹配的深度
模型, 深度模型包括: 词向量层、 BiLSTM、 交互注
意力矩阵、 多角度融合、 池化层、 多层次卷积结构
和全连接层; 基于深度模型预测查询和候选问答
的语义相关性的大小将候选问答排序, 排序后的
候选问答作为检索结果。 本发明基于文本语义匹
配检索编程论坛Stack Overflow上的相关问答,
使用交互注意力矩阵、 多角度融合、 池化层来深
化BiLSTM的特征提取, 同时利用多层次卷积结构
从另一个角度丰富BiLSTM的特征提取, 可提取到
多种的文本语义匹配信息, 进一步提升Stack
Overflow相关问答的检索性能。
权利要求书3页 说明书7页 附图2页
CN 115017279 A
2022.09.06
CN 115017279 A
1.基于文本语义匹配的Stack Overflow相关问答检索方法, 其特征在于, 包括以下步
骤:
1)获取Stack Overflow的问答数据集, 并对问答数据集的文本进行预处理, 包括清洗
文本、 分词、 移除停用词和低频词以及词干化; 将预处理后的问答数据集的文本构建成语料
库, 基于语料库训练词向量; 将预处理后的问答数据集的文本构建成查询和 候选问答的文
本对, 并把 查询和候选问答的文本对按比例划分为训练集和 测试集;
2)构建一个文本语义匹配的深度模型, 利用步骤1)所述的训练集对构建的深度模型进
行训练, 得到最优模型; 其中, 所述的深度模型基于双向长短期记忆网络BiLSTM进行改进,
其情况为: 基于步骤1)所训练的词向量构造的词向量层, 将查询和候选问答的文本对转换
为查询向量与候选问答向量; 采用BiLSTM将查询向量和候选问答向量转换为查询的上下文
向量与候选问答的上下文向量; 在BiLSTM后计算查询的上下文向量和候选问答的上下文向
量之间的交互注意力矩阵, 利用交互注意力矩阵分别获取查询的语义交互向量和候选问答
的语义交互向量, 这一步 目的是提取语义交互特征, 促进查询和 候选问答的文本对之间的
语义信息交流; 采用多角度融合, 以几种不同的计算方式把查询和候选 问答各自的上下文
向量和语义交互向量进 行融合, 得到查询的融合向量和候选问答的融合向量; 采用池化层,
以进一步突出多角度融合的效果, 利用最大池化和平均池化从查询的融合向量和候选问答
的融合向量提取查询的序列匹配 向量和候选问答的序列匹配向量; 采用多层次卷积结构,
以丰富特征提取, 多层次卷积结构根据BiLSTM生 成的查询的上下文向量与候选问答的上下
文向量来提取查询的卷积匹配向量和候选问答的卷积匹配向量; 结合查询的序列匹配向
量、 候选问答的序列匹配向量、 查询的卷积匹配向量和候选问答的卷积匹配向量, 采用一个
多层的全连接层进行语义相关性的预测;
3)利用步骤2)得到的最优模型, 预测步骤1)所述的测试集的查询和候选问答的文本对
之间的语义相关性, 根据相关性的大小排列候选问答, 排序后的列表作为检索结果。
2.根据权利要求1所述的基于文本语义匹配的Stack Overflow相关问答检索方法, 其
特征在于, 在步骤1)中, 对于问答数据集的文本预处理, 构建语料库并训练向量, 构建查询
和候选问答的文本对, 执 行以下操作:
1.1)获取Stack Overflow的问答数据集, 对问答数据集的文本进行预处理; 首先清洗
文本: 利用正则表达式去除文本中的超文本标签、 代码片段、 域名、 标点符号和数字, 将文本
中的英文字母小写化; 然后基于文本的单词之间的空格对文本进行分词; 移除文本中常见
的英文停用词, 根据设定的阈值移除文本中词频低于阈值的单词; 基于Porter算法将文本
中的单词进行词干化处 理;
1.2)将预处理后的问答数据集的文本构建成语料库; 基于语料库采用词向量算法来训
练词向量;
1.3)将预处理后的问答数据集的文本构建成查询和候选问答的文本对{Q,C}, 其中每
个查询的文本对应多个候选问答的文本, 并把查询和候选问答的文本对按比例划分为训练
集和测试集。
3.根据权利要求1所述的基于文本语义匹配的Stack Overflow相关问答检索方法, 其
特征在于, 所述 步骤2)包括以下步骤:
2.1)构建一个文本语义匹配的深度模型;权 利 要 求 书 1/3 页
2
CN 115017279 A
22.2)深度模型的输入为查询和候选问答的文本对{Q,C}; 为了将输入的文本对转换成
向量以方便深度模型进一步处理, 利用步骤1)所训练的词向量的参数构建词向量层, 用词
向量层将查询和候选问答的文本对{Q,C}转换为查询词向量q={qi},i=1,2,...,N和候选
问答词向量c={cj},j=1,2,...,M, 其中qi和cj是查询和候选问答的文本中第i个和第j个
词的词向量, N和M是查询和候选问答的文本的长度;
2.2)为了将查询词向量和候选词向量中的每个单词与前后的文本联系起来, 采用
BiLSTM在查询词向量q和候选问答词向量c的前向和后向共两个方向上依次提取查询和候
选问答的上下文特征, 获得查询的上下文向量
和候选问答的上下文向
量
其中
和
是查询和候选问答的第i个和第j个词的上 下文向量:
式中, 符号→和←分别代表BiLSTM的前向操作和后向操作;
2.3)为促进查询和候选问答之间的语义相关性的特征, 对于BiLSTM获得查询的上下文
向量
和候选问答的上下文向量
基于交互注 意力机制, 采用向量间的点乘算法计算
和
之间的交互注意力矩阵
为实数集, 交互注意力矩阵E中第i行、 第j列的值为
eij, eij表示查询的文本中第i个单词与候选问答 的文本中第j个单词 之间的注意力权重得
分, 注意力权 重得分的高低代 表语义相关性的大小;
基于交互注意力矩阵E、 查询的上下文向量
和候选问答的上下文向量
获取查询的语
义交互向量
和候选问答的语义交 互向量
式中, 先利用soft max函数对注意力权重得分eij进行归一化, eiu表示对eij从E的列方向
上进行加权归一化, 此时eiu的下标u从1变化到M, euj表示对eij从E的行方向上进行加权归一
化, 此时euj的下标u从1变化到N; 并基于BiLSTM的隐藏单元维度d将归一化之后的权重乘以
使注意力权重 得分的梯度更加稳健, 再将得到的结果与查询的上下文向量
和候选问
答的上下文向量
进行加权求和; 其中,
表示查询的文本中第i个单词与候选问答的文本
的所有单词之间的语义交互向量,
表示候选问答的文本中第j个单词与查询的文本的所
有单词之间的语义交 互向量;
2.4)为获取语义匹配特 征, 对查询和候选问答分别执 行多角度融合;
将查询和候选问答各自的上下文向量和语义交互向量以拼接、 相减、 相乘的方式进行
融合, 具体为: 将上下文向量、 语义交互向量、 上下文向量与语义交互向量相减的结果、 上下
文向量与语义交互向量相乘的结果拼接在一起, 获得融合向量, 其中, 对于上下文向量与语
义交互向量相减的结果、 上下文向量与语义交互向量相乘的结果, 还要输入到一个单层的权 利 要 求 书 2/3 页
3
CN 115017279 A
3
专利 基于文本语义匹配的Stack Overflow相关问答检索方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:49:28上传分享