安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211390481.2 (22)申请日 2022.11.08 (71)申请人 南京信息 工程大学 地址 210044 江苏省南京市江北新区宁六 路219号 (72)发明人 汤龙 唐昕航 潘志庚  (74)专利代理 机构 南京苏高专利商标事务所 (普通合伙) 32204 专利代理师 王恒静 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/74(2022.01) (54)发明名称 一种多视角零样本图像识别方法 (57)摘要 本发明公开了一种多视角 零样本图像识别 方法, 包括: 构建多视角视觉 ‑语义映射模型表达 式; 通过提取并融合已见类训练集中图片样本的 多视角视觉特征, 建立多视角视觉 ‑语义映射模 型; 提取待识别图片的多视角视觉特征; 将待识 别图片的多视角视觉特征输入训练获得的多视 角视觉‑语义映射模型, 输出待识别图片 的预测 类别语义属性, 实现多视角零样本图像识别。 本 发明针对零样本识别中的多视角数据融合问题 提出一种有效的解决途径, 通过兼顾 不同视角之 间的一致性原则和互补性原则, 并给出与之匹配 的交替方向乘子法, 有效提升零样本识别的精 度。 权利要求书7页 说明书15页 附图1页 CN 115424096 A 2022.12.02 CN 115424096 A 1.一种多视角零样本图像识别方法, 其特 征在于, 包括以下步骤: S1采集待识别图片, 并提取 所述待识别图片的多视角视 觉特征; S2将所述多视角视觉特征输入预先训练获得的多视角视觉 ‑语义映射模型, 最终得到 待识别图片的预测类别语义属性; S3采用图模型降噪算法将待识别图片在各个视角上的视觉特征空间和预测类别语义 属性空间进行流形对齐, 进 而获得待识别图片最终的类别语义属性。 2.根据权利要求1所述的多视角零样本图像识别方法, 其特征在于, 所述步骤S2中, 预 先训练获得的多视角视 觉‑语义映射模型包括训练阶段, 所述训练阶段包括以下步骤: S21获取已见类训练集, 已见类训练集包括图片样本的多视角视觉特征和图片样本的 类别语义属性; S22构建多视角视觉 ‑语义映射模型, 将图片样本的多视角视觉特征作为多视角视觉 ‑ 语义映射模型的输入, 将图片样本的类别语义属性作为多视角视觉 ‑语义映射模 型的输出; 并基于不同视角视 觉特征之间的一 致性和互补性原则, 建立优化问题; S23使用交替方向乘子法对所述优化问题变量进行更新迭代, 直至优化问题的变量在 两次连续迭代中的变化量小于定值, 进而确定多视角视觉 ‑语义映射模型中的相关参量, 从 而获得最终的多视角视 觉‑语义映射模型。 3.根据权利要求2所述的多视角零样本图像识别方法, 其特征在于, 所述步骤S2中, 预 先训练获得的多视角视 觉‑语义映射模型还 包括测试阶段, 所述测试阶段包括以下步骤: S24获取未见类测试集, 将所述未见类测试集输入所述最终的多视角视觉 ‑语义映射模 型, 获得未见类测试集在各个视角上的预测类别语义属性; S25利用图模型降噪算法, 将未见类测试集在各个视角上的视觉特征空间与未见类测 试集的预测类别语义属性空间进 行流形对齐, 更新未见类测试集在各个视角上的类别语义 属性, 并将它 们的平均值作为未 见类测试集 最终的类别语义属性; S26基于未见类测试集最终的类别语义属性和未见类在各个视角上的类别语义属性, 确定未见类测试集中每 个图片样本最终的预测类别; S27根据未见类测试集中图片样本的真实类别, 统计未见类测试集中图片样本最终的 预测类别的正确数量, 并计算未 见类测试集的类别预测准确率; S28若未见类测试集的类别预测准确率大于设定的未见类阈值, 则判定最终的视觉 ‑语 义映射模型合格, 否则, 返回到训练阶段。 4.根据权利要求2所述的多视角零样本图像识别方法, 其特征在于, 步骤S22中, 构建多 视角视觉‑语义映射模型, 实现方法为: 多视角视 觉‑语义映射模型的表达式为: 其中, 分别为图片样本在两个不同视角上的视觉特征, 分别为两个视 角的视觉特征的维度, 和 为图片样本的类别语义属性, 和 分别为两个视角的视觉 特征空间到各自的潜在子空间的投影矩阵, 和 分别为两个视角的各自的潜在子空间权 利 要 求 书 1/7 页 2 CN 115424096 A 2到类别语义属性空间的投影矩阵, T为转置。 5.根据权利要求4所述的多视角零样本图像识别方法, 其特征在于, 步骤S22中, 基于不 同视角视 觉特征之间的一 致性和互补性原则, 建立优化问题, 实现步骤 包括: S221建立基于类别语义属性空间的相似度模型的损失函数, 若图片样本在各个视角上 的视觉特征在类别语义属 性空间的投影与图片样本对应的类别语义属 性的相似度大于设 定的阈值 , 则损失值 为零; S222优化问题 表示为: 其中,tr(*)为矩阵的迹运 算; 为矩阵的 F‑范数; 分别为已见类训练 集中所有图片样本在两个不同视角上的视觉特征矩阵, n为样本数量, 为已见类训练集中 的所有图片样本对应的类别语义属性的矩阵, 的每一列均为所有已见类的类别语义属性 的平均值, 的列数为已见类训练集中的图片样本数量; P1和P2分别为两个视角的潜在子空 间到各自视 觉特征空间的逆投影矩阵; I为单位矩阵; 为损失函数中设定的阈值; 和 分别为两个视角上的松弛变量; β1,β2,C和 为权系数。 6.根据权利要求5所述的多视角零样本图像识别方法, 其特征在于, 建立所述优化问 题, 具体原则包括: a)最小化图片样本的损失值; b)最小化图片样本在不同视角上的视觉特征在类别语义属性空间的投影的差异, 从而 满足不同视角之间的一 致性原则; c)根据多视角视觉 ‑语义映射模型在图片样本每个单视角上的拟合表现调 节其他视角 上的损失值, 从而满足不同视角之间的互补性原则; d)在多视角视 觉‑语义映射模型中为每一个视角添加一个潜在子空间。 7.根据权利要求5所述的多视角零样本图像识别方法, 其特征在于, 所述步骤S23具体 包括以下步骤: S231通过引入松弛变量 , 将公式(1)中的不等式约束改写成等价的等式约权 利 要 求 书 2/7 页 3 CN 115424096 A 3

.PDF文档 专利 一种多视角零样本图像识别方法

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多视角零样本图像识别方法 第 1 页 专利 一种多视角零样本图像识别方法 第 2 页 专利 一种多视角零样本图像识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:20:01上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。