(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211236433.8
(22)申请日 2022.10.10
(71)申请人 北京达佳互联信息技 术有限公司
地址 100085 北京市海淀区上地西路6号1
幢1层101D1-7
(72)发明人 吴蔚 贺俊霖 乔禹 刘理 余晋
刘凌志
(74)专利代理 机构 北京铭硕知识产权代理有限
公司 11286
专利代理师 苏银虹 王兆赓
(51)Int.Cl.
G06F 16/2458(2019.01)
G06F 16/2453(2019.01)
G06N 3/04(2006.01)
(54)发明名称
数据查询方法和装置、 电子设备、 计算机可
读存储介质
(57)摘要
本公开关于一种数据查询方法和装置、 电子
设备、 计算机 可读存储介质, 数据查询方法包括:
对待检索向量的属性信息进行编码处理, 得到对
应的一个编码数据, 作为待检索编码数据; 获取
参考向量集合, 参考向量集合包括多个参考向
量, 每个参考向量关联有参考编码数据, 参考编
码数据是对关联的参考向量的属性信息进行编
码处理后得到的一个编码数据; 结合待检索编码
数据和参考编码数据, 从参考向量集合中, 确定
出对应于待检索向量的目标向量, 目标向量用于
进行数据查询。 通过将属性信息编码为一个编码
数据, 可令编码数据参与到检索计算中, 利用属
性优化检索结果, 提高召回率, 并可将多属性约
束问题转换为单属性约束问题, 保障检索效率。
权利要求书3页 说明书14页 附图7页
CN 115495504 A
2022.12.20
CN 115495504 A
1.一种数据查询方法, 其特 征在于, 包括:
对待检索 向量的属性信息进行编码处理, 得到对应的一个编码数据, 作为待检索编码
数据;
获取参考向量集合, 所述参考向量集合包括多个参考向量, 每个参考向量关联有参考
编码数据, 所述参考编 码数据是对关联的所述参考向量的属性信息进 行编码处理后得到的
一个编码数据;
结合所述待检索编码数据和所述参考编码数据, 从所述参考向量集合中, 确定出对应
于所述待检索向量的目标向量, 所述目标向量用于进行 数据查询。
2.如权利要求1所述的数据查询方法, 其特征在于, 所述对待检索向量的属性信 息进行
编码处理, 得到对应的一个编码数据, 作为待检索编码数据, 包括:
针对所述待检索 向量的属性信息构成的属性组合, 查询编码数据集合, 得到与所述待
检索向量的属性信息相对应的编 码数据, 作为所述待检索编码数据, 其中, 所述编码数据集
合中关联存 储有一一对应的属性组合和编码数据。
3.如权利要求2所述的数据查询方法, 其特征在于, 所述编码数据集合通过以下步骤生
成:
获取多个属性组合;
确定所述多个属性组合彼此之间的相似度;
为每个属性组合赋予对应的编码数据, 其中, 任意两个属性组合的编码数据之间的差
异与所述任意两个属性组合之间的相似度负相关。
4.如权利要求1到3中的任一权利要求所述的数据查询方法, 其特征在于, 所述参考向
量集合通过以下步骤生成:
获取所述多个参 考向量;
根据所述多个参 考向量构建复合近邻图, 作为所述 参考向量集合, 其中:
所述多个参 考向量表示 为所述复合近邻图中的多个图像点, 记为 参考点;
每个参考点均与至少一个其他参考点互为邻居点, 所述其他参考点为所述复合近邻图
的参考点中除当前的参 考点以外的参 考点;
所述每个参考点与 所述每个参考点的至少一个邻居点互为相似点, 所述相似点是编码
数据满足预设 关系的点, 所述预设 关系用于表示两个编码数据相同或相似。
5.如权利要求4所述的数据查询方法, 其特征在于, 所述结合所述待检索编码数据和所
述参考编码数据, 从所述参考向量集合中, 确定出对应于所述待检索向量的目标向量, 包
括:
将所述复合近邻图中的任一个参考点作为父候选点, 确定所述父候选点的全部邻居点
对应的参 考向量与所述待检索向量之间的向量距离;
根据所述向量距离, 从所述全部邻居点中筛选预设数量的邻居点, 作为所述父候选点
的子候选点;
将所述子候选点中不满足截断条件的子候选点逐个作为新的父候选点, 针对所述新的
父候选点, 重复执行确定所述父候选点的全部邻居点对应的参考向量与所述待检索向量之
间的向量距离, 和根据所述向量距离, 从所述全部邻居点中筛选预设数量的邻居点, 作为所
述父候选点的子候选点的步骤, 其中, 所述截断条件用于表示所述子候选点对应的所述参权 利 要 求 书 1/3 页
2
CN 115495504 A
2考编码数据与所述待检索编码数据的差异值大于差异阈值, 且所述子候选点之前 的连续N
级父候选点对应的所述参考编码数据与所述待检索编码数据之间的差异值均大于所述差
异阈值, 所述 N为预设值;
直到满足结束条件, 从全部所述父候选点对应的参考向量中, 选择所述目标向量, 所述
结束条件用于表示无法得到新的子候选点。
6.如权利要求4所述的数据查询方法, 其特征在于, 所述复合近邻图通过以下步骤构
建:
根据所述多个参 考向量彼此之间的向量距离, 构建近邻图, 作为基准图;
根据所述参考编码数据, 将所述参考向量集合划分为多个子集合, 对每个子集合分别
构建近邻图, 作为属性图;
结合所述基准图和所述属性图中的邻居关系, 获得 所述复合近邻图。
7.如权利要求6所述的数据查询方法, 其特征在于, 所述根据所述参考编码数据, 将所
述参考向量集合划分为多个子集 合, 包括:
将所述参考向量集合中具有相同的所述参考编码数据的参考向量划入同一个子集合,
得到多个初始子集 合;
将元素数量小于数量阈值的初始子集合并入对应的近似子集合, 得到所述多个子集
合, 其中, 所述初始子集合的所述参考编码数据与对应的所述近似子集合的所述参考编码
数据之间的属性相似度大于或等于相似度阈值。
8.如权利要求1到3中的任一权利要求所述的数据查询方法, 其特征在于, 所述结合所
述待检索编码数据和所述参考编码数据, 从所述参考向量集合中, 确定出对应于所述待检
索向量的目标向量, 包括:
根据所述待检索编码数据, 确定所述参考向量集合中与 所述待检索编码数据相符的参
考编码数据;
根据所述相符的参 考编码数据所对应的参 考向量, 得到候选向量 集合;
从所述候选向量 集合中, 确定出对应于所述待检索向量的所述目标向量。
9.一种数据查询装置, 其特 征在于, 包括:
编码单元, 被配置为执行对待检索 向量的属性信息进行编码处理, 得到对应的一个编
码数据, 作为待检索编码数据;
获取单元, 被配置为执行获取参考向量集合, 所述参考向量集合包括多个参考向量, 每
个参考向量关联有参考编 码数据, 一个所述参考编 码数据是对关联的所述参考向量的属性
信息进行编码处 理后得到的一个编码数据;
检索单元, 被配置为执行结合所述待检索编码数据和所述参考编码数据, 从所述参考
向量集合中, 确定出对应于所述待检索向量的目标向量, 所述目标向量用于进行 数据查询。
10.一种电子设备, 其特 征在于, 包括:
至少一个处 理器;
至少一个存 储计算机可 执行指令的存 储器,
其中, 所述计算机可执行指令在被所述至少一个处理器运行时, 促使所述至少一个处
理器执行如权利要求1到8中的任一权利要求所述的数据查询方法。
11.一种计算机可读存储介质, 其特征在于, 当所述计算机可读存储介质中的指令被至权 利 要 求 书 2/3 页
3
CN 115495504 A
3
专利 数据查询方法和装置、电子设备、计算机可读存储介质
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:06上传分享