安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210228816.4 (22)申请日 2022.03.08 (71)申请人 中国海洋大学 地址 266100 山东省青岛市崂山区松岭路 238号 (72)发明人 许晓伟 刘振宇 魏智敏 王晓东  曹媛 王成林  (74)专利代理 机构 青岛华慧泽专利代理事务所 (普通合伙) 37247 专利代理师 赵梅 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/31(2019.01) G06F 16/335(2019.01) G06F 16/35(2019.01)G06F 40/30(2020.01) (54)发明名称 一种语义相似度向量再稀疏编码索引与检 索方法 (57)摘要 本发明属于信息检索技术领域, 公开了一种 语义相似度向量再稀 疏编码索引与检索方法, 索 引构建时首先利用深度学习语义相似度模型将 输入的文本数据生成保存了文本语句语义信息 的稠密语义向量; 然后将稠密语义向量再稀 疏编 码为保存了语义信息的字 符串; 再将生成的字 符 串存入索引库中的不同字段进行倒排序索引, 对 所有文档建立倒排索引。 在检索时, 使用搜索引 擎对包含语义信息的字 符串进行检索, 并召回语 义相似文本T op‑N。 通过本发明的方法, 保留深度 学习语义模 型向量的表征特性, 有效排除召回阶 段的误差, 提高语义检索的准确率。 权利要求书2页 说明书8页 附图3页 CN 114860868 A 2022.08.05 CN 114860868 A 1.一种语义相似度向量再稀疏编码索引方法, 其特 征在于, 包括以下步骤: 步骤S11、 文本语义向量化: 将输入的文本数据, 利用深度学习语义相似度模型生成保 存了文本语句语义信息的稠密语义向量; 步骤S12、 稠密语义向量再稀疏编码: 将步骤S1生成的稠密语义向量从矢量形式再稀疏 编码为保存了语义信息的字符串; 步骤S13、 倒排序索引: 将步骤S2生成的字符串存入索引库中的不同字段进行倒排序索 引, 对所有 文档建立倒排索引。 2.根据权利要求1所述的一种语义相似度向量再稀疏编码索引方法, 其特征在于, 采用 的深度学习语义相似度模 型是SBERT模 型与LSI模 型相结合的方法; 当输入的文本长度低于 512时采用SBERT模型, 将文本转为语义向量; 当文本长度大于512时, 先将长文本切分为多 个长度不大于512的短文本并采用SBERT模型, 生成多个语义向量, 然后将除第一个语义 向 量外的多个向量取平均向量与第一个语义向量一起作为此文本的SBERT语义向量, 当输入 的文本长度大于 512时, 同时使用LSI模型对输入文本生成基于LSI模型的语义向量。 3.根据权利要求1所述的一种语义相似度向量再稀疏编码索引方法, 其特征在于, 步骤 S12中, 稠密语义向量按照以下编 码格式转为字符串: 每个编码后的向量字符串分别表 示为 第一位存储向量的维度, 第二位用P或者N代表向量的正负, positive为正, negative为负, 后面几位 为按照选 定的精度n保留了n 位小数的向量数值, 其中整数和小数部分用A连接 。 4.根据权利要求2所述的一种语义相似度向量再稀疏编码索引方法, 其特征在于, 采用 SBERT模型与LSI模型相结合时, 步骤S13中, 分别将 两种模型语义向量再稀 疏编码后的字 符 串存入索引库中的不同字段进 行倒排序索引: 在索引库中新建三个Field字段, 将此文本的 长度存到一个域中, 其余两个字段将步骤S2中稠密语义向量再稀疏编码后的SBERT向量字 符串存于其中一个域中, LSI向量字 符串存于另一个域中, SBERT和LSI编码后的字 符串作为 词项分别建立词典, 根据两种词典对所有 文档建立倒排索引。 5.一种语义相似度向量再稀疏编码检索方法, 其特征在于, 首先判断待检索文本是文 档还是关键词, 第一种情况, 当待检索文本类型为文档时, 包括以下 方法: S21、 待检索文本语义向量化, 检测输入的检索内容的长度, 根据文本长度选择不同的 深度学习语义相似度模型生成保存了文本语句语义信息的稠密语义向量; S22、 待检索文本稠密语义向量再稀疏编码, 将步骤S21中基于深度学习语义相似度模 型生成的稠密语义向量, 从矢量形式再稀疏编码为保留了语义信息的字符串; S23、 编码文本相似度排序, 使用搜索引擎的倒排序索引, 按照字符串 的“或”关系对编 码后的向量字符串 进行检索, 并通过BM25算法完成相关性 排序; 第二种情况, 当待检索文本类型为关键词时, 包括以下 方法: S24、 关键词检索, 将待检索文本在搜索引擎中进行关键词检索并取检索结果的Top ‑Y; S25、 Top‑Y结果再检索, 对于步骤S24获得的Top ‑Y个结果中的每一个结果, 按照当待检 索文本类型为文档时, 步骤S23编码文本相似度排序中的方法对字符串进行检索并召回结 果Top‑M, 关键词检索的Top ‑Y结果对应的可以召回Y *M个结果; S26、 检索结果去重再排序, 首先将步骤S25获得的Y*M个结果中重复的结果去掉, 然后 由于每个结果都是经过两次检索得到, 两次得分分别为score1、 score2, 根据score1* score2将去重后的结果重新 排序, 最后取排序结果的Top ‑Y作为最终召回结果。权 利 要 求 书 1/2 页 2 CN 114860868 A 26.根据权利要求5所述的一种语义相似度向量再稀疏编码检索方法, 其特征在于, 步骤 S21中, 当文本长度低于512时采用SBERT模型, 将文本转为语义向量, 当文本长度大于512时 将长文本切分为多个长度不大于512的短文本并采用SBERT模型, 生成多个语义 向量, 然后 将除第一个短文本语义向量外的多个向量取平均向量并与第一个短文本语义向量一起作 为待检索文本的SBERT语义向量; 当输入的文本长度大于512时, 同时使用LSI模 型对输入文 本生成基于LSI模型的语义向量。 7.根据权利要求5所述的一种语义相似度向量再稀疏编码检索方法, 其特征在于, 步骤 S22中, 编码格式与权利要求3中所述的编码格式相同。 8.根据权利要求6所述的一种语义相似度向量再稀疏编码检索方法, 其特征在于, 步骤 S23中, 当待检索文本长度不超过512时, 将待检索 文本基于SBERT模 型语义向量编码后的语 义向量字符串作为检索内容输入搜索引擎并召回相似结果Top ‑N; 当待检索文本长度大于 512时, 首先将待检索 文本基于SBERT模 型语义向量编 码后的语义向量字 符串作为检索内容 输入搜索引擎并召回相似 结果Top‑N, 然后将待检索 文本基于LSI模 型语义向量编码后的语 义向量字符串作为检索内容输入搜索引擎并召回相似结果Top ‑N, 最后将两次两种方式召 回得到结果按照加权得分的方式重新 排序并取排名Top ‑N的结果作为 最终召回结果。 9.根据权利要求8所述的一种语义相似度向量再稀疏编码检索方法, 其特征在于, 步骤 S25中, 对于步骤S24 获得的Top ‑Y个结果中的每一个结果, 首先根据该结果中存储文本长度 的Field判断其与512的关系, 再根据判断结果, 按照步骤S23编码文本相似度排序中的方法 对该结果LSI字段或SBERT字段中存 储的语义字符串 进行检索并召回结果Top ‑M。权 利 要 求 书 2/2 页 3 CN 114860868 A 3

.PDF文档 专利 一种语义相似度向量再稀疏编码索引与检索方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种语义相似度向量再稀疏编码索引与检索方法 第 1 页 专利 一种语义相似度向量再稀疏编码索引与检索方法 第 2 页 专利 一种语义相似度向量再稀疏编码索引与检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。