(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210361931.9
(22)申请日 2022.04.07
(71)申请人 青岛海尔科技有限公司
地址 266101 山东省青岛市崂山区海尔路1
号海尔工业园
申请人 海尔智家 股份有限公司
(72)发明人 刘建国 王迪 李昱涧
(74)专利代理 机构 北京康信知识产权代理有限
责任公司 1 1240
专利代理师 周婷婷
(51)Int.Cl.
G06F 16/335(2019.01)
G06F 16/383(2019.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
(54)发明名称
文本匹配方法和装置、 存 储介质及电子设备
(57)摘要
本发明公开了一种文本匹配方法和装置、 存
储介质及电子设备, 该文本匹配方法包括: 在获
取到检索文本的情况下, 将检索文本输入预训练
语言模型, 得到检索文本向量; 计算上述检索文
本向量与列式数据库中存储的多个候选文本向
量之间的相似度, 根据上述相似度从上述多个候
选文本向量中确定目标文本向量, 其中, 列式数
据库中存储有多个候选文本以及多个候选文本
各自对应的候选文本向量, 候选文本向量为将候
选文本输入 预训练语言模型得到的文本向量, 目
标文本向量为与检索文本向量的相似度大于预
设相似阈值的候选文本向量; 将目标文本向量对
应的目标文本确定为与检索文本匹配的文本。 本
发明解决了文本匹配的准确度较低的技 术问题。
权利要求书2页 说明书10页 附图5页
CN 114780710 A
2022.07.22
CN 114780710 A
1.一种文本匹配方法, 其特 征在于, 包括:
在获取到检索文本的情况下, 将所述检索文本输入预训练语言模型, 得到检索文本向
量, 其中, 所述预训练语言模型用于提取输入文本的语义特征以得到与所述输入文本对应
的文本向量;
计算所述检索文本向量与列式数据库中存储的多个候选文本向量之间的相似度, 根据
所述相似度从所述多个候选文本向量中确定目标文本 向量, 其中, 所述列式数据库中存储
有多个候选文本以及所述多个候选文本各自对应的候选文本向量, 所述候选文本向量为将
所述候选文本输入所述预训练语言模型得到的文本向量, 所述目标文本向量为与所述检索
文本向量的相似度大于预设相似阈值的所述 候选文本向量;
将所述目标文本向量对应的目标文本确定为与所述检索文本匹配的文本 。
2.根据权利要求1所述的方法, 其特 征在于, 在获取检索文本之前, 还 包括:
在接收到所述候选文本的情况下, 将所述候选文本输入所述预训练语言模型, 得到所
述预训练语言模型输出的所述 候选文本向量;
获取所述候选文本的文本索引, 其中, 所述文本索引用于标识所述 候选文本;
将所述候选文本的文本索引和所述 候选文本向量对应存 入所述列式数据库中。
3.根据权利要求2所述的方法, 其特征在于, 所述将所述候选文本的文本索引和所述候
选文本向量对应存 入所述列式数据库中, 包括:
以所述候选文本的文本索引作为存储标识、 所述候选文本向量作为存储内容, 将所述
候选文本的文本索引和所述 候选文本向量存 入所述列式数据库。
4.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 所述将所述目标文本向量对应的
目标文本确定为与所述检索文本匹配的文本, 包括:
在文本数据库中, 查找与所述目标文本向量对应的目标文本索引对应的文本, 其中, 所
述文本数据库中存 储存在关联关系的所述文本索引和所述 候选文本;
将与所述目标文本索引对应的候选文本确定为所述目标文本 。
5.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 所述计算所述检索文本向量与列
式数据库中存储的多个候选文本向量之 间的相似度, 根据所述相似度从所述多个候选文本
向量中确定目标文本向量, 还 包括:
获取所述列式数据库的存储类型, 其中, 所述存储类型用于指示所述列式数据库所在
存储介质的类型;
按照与所述列式数据库的存储类型匹配的向量索引方式, 在所述列式数据库中查找与
所述检索文本向量在相似度上匹配的目标候选文本向量;
计算所述检索文本向量与 所述目标候选文本向量之间的候选相似度, 根据所述候选相
似度从所述目标候选文本向量中确定出 所述目标文本向量。
6.根据权利要求5所述的方法, 其特征在于, 所述按照与 所述列式数据库的存储类型匹
配的向量索引方式, 在所述列式数据库中查找与所述检索文本向量在相似度上匹配的目标
候选文本向量, 包括:
依次比对所述检索文本向量与所述多个候选文本向量在相同位 次上的数值, 得到所述
候选文本 向量的候选相似参数, 其中, 所述候选相似参数用于指示所述候选文本 向量与所
述检索文本向量在相同位次上 数值满足数值相似阈值条件的位次参数;权 利 要 求 书 1/2 页
2
CN 114780710 A
2根据每个所述候选文本向量的所述候选相似参数, 从所述列式数据库的所述多个候选
文本向量中确定出所述 目标候选文本 向量, 其中, 所述 目标候选文本 向量的所述候选相似
参数大于候选相似阈值。
7.根据权利要求6所述的方法, 其特征在于, 所述计算所述检索文本向量与 所述目标候
选文本向量之 间的候选相似度, 根据所述候选相似度从所述目标候选文本向量中确定出所
述目标文本向量, 包括:
计算所述目标候选文本向量与所述检索文本向量的向量距离, 得到所述目标候选文本
向量对应的所述 候选相似度;
在所述目标候选文本向量的所述候选相似度超过相似度阈值的情况下, 将所述目标候
选文本向量确定为所述目标文本向量。
8.一种文本匹配装置, 其特 征在于, 包括:
输入单元, 用于在获取到检索文本的情况下, 将所述检索文本输入预训练语言模型, 得
到检索文本 向量, 其中, 所述预训练语言模型用于提取输入文本的语义特征以得到与所述
输入文本对应的文本 向量; 计算单元, 用于计算所述检索文本 向量与列式数据库中存储的
多个候选文本向量之间的相似度, 根据所述相似度从所述多个候选文本向量中确定目标文
本向量, 其中, 所述列式数据库中存储有多个候选文本以及所述多个候选文本各自对应的
候选文本向量, 所述候选文本向量为将所述候选文本输入所述预训练语言模型得到的文本
向量, 所述目标文本向量为与所述检索 文本向量的相似度大于预设相似阈值的所述候选文
本向量;
确定单元, 用于将所述目标文本向量对应的目标文本确定为与 所述检索文本匹配的文
本。
9.一种计算机可读的存储介质, 其特征在于, 所述计算机可读的存储介质包括存储的
程序, 其中, 所述 程序运行时执 行所述权利要求1至7任一项中所述的方法。
10.一种电子设备, 包括存储器和 处理器, 其特征在于, 所述存储器中存储有计算机程
序, 所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方
法。权 利 要 求 书 2/2 页
3
CN 114780710 A
3
专利 文本匹配方法和装置、存储介质及电子设备
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:51:01上传分享