专利 一种多视角零样本图像识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211390481.2 (22)申请日 2022.11.08 (71)申请人南京信息工程大学地址 210044 江苏省南京市江北新区宁六路219号 (72)发明人汤龙　唐昕航　潘志庚　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 专利代理师王恒静 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/74(2022.01) (54)发明名称一种多视角零样本图像识别方法 (57)摘要本发明公开了一种多视角零样本图像识别方法，包括：构建多视角视觉 ‑语义映射模型表达式；通过提取并融合已见类训练集中图片样本的多视角视觉特征，建立多视角视觉 ‑语义映射模型；提取待识别图片的多视角视觉特征；将待识别图片的多视角视觉特征输入训练获得的多视角视觉‑语义映射模型，输出待识别图片的预测类别语义属性，实现多视角零样本图像识别。本发明针对零样本识别中的多视角数据融合问题提出一种有效的解决途径，通过兼顾不同视角之间的一致性原则和互补性原则，并给出与之匹配的交替方向乘子法，有效提升零样本识别的精度。权利要求书7页说明书15页附图1页 CN 115424096 A 2022.12.02 CN 115424096 A 1.一种多视角零样本图像识别方法，其特征在于，包括以下步骤： S1采集待识别图片，并提取所述待识别图片的多视角视觉特征； S2将所述多视角视觉特征输入预先训练获得的多视角视觉 ‑语义映射模型，最终得到待识别图片的预测类别语义属性； S3采用图模型降噪算法将待识别图片在各个视角上的视觉特征空间和预测类别语义属性空间进行流形对齐，进而获得待识别图片最终的类别语义属性。 2.根据权利要求1所述的多视角零样本图像识别方法，其特征在于，所述步骤S2中，预先训练获得的多视角视觉‑语义映射模型包括训练阶段，所述训练阶段包括以下步骤： S21获取已见类训练集，已见类训练集包括图片样本的多视角视觉特征和图片样本的类别语义属性； S22构建多视角视觉 ‑语义映射模型，将图片样本的多视角视觉特征作为多视角视觉 ‑ 语义映射模型的输入，将图片样本的类别语义属性作为多视角视觉 ‑语义映射模型的输出；并基于不同视角视觉特征之间的一致性和互补性原则，建立优化问题； S23使用交替方向乘子法对所述优化问题变量进行更新迭代，直至优化问题的变量在两次连续迭代中的变化量小于定值，进而确定多视角视觉 ‑语义映射模型中的相关参量，从而获得最终的多视角视觉‑语义映射模型。 3.根据权利要求2所述的多视角零样本图像识别方法，其特征在于，所述步骤S2中，预先训练获得的多视角视觉‑语义映射模型还包括测试阶段，所述测试阶段包括以下步骤： S24获取未见类测试集，将所述未见类测试集输入所述最终的多视角视觉 ‑语义映射模型，获得未见类测试集在各个视角上的预测类别语义属性； S25利用图模型降噪算法，将未见类测试集在各个视角上的视觉特征空间与未见类测试集的预测类别语义属性空间进行流形对齐，更新未见类测试集在各个视角上的类别语义属性，并将它们的平均值作为未见类测试集最终的类别语义属性； S26基于未见类测试集最终的类别语义属性和未见类在各个视角上的类别语义属性，确定未见类测试集中每个图片样本最终的预测类别； S27根据未见类测试集中图片样本的真实类别，统计未见类测试集中图片样本最终的预测类别的正确数量，并计算未见类测试集的类别预测准确率； S28若未见类测试集的类别预测准确率大于设定的未见类阈值，则判定最终的视觉 ‑语义映射模型合格，否则，返回到训练阶段。 4.根据权利要求2所述的多视角零样本图像识别方法，其特征在于，步骤S22中，构建多视角视觉‑语义映射模型，实现方法为：多视角视觉‑语义映射模型的表达式为：其中，分别为图片样本在两个不同视角上的视觉特征，分别为两个视角的视觉特征的维度，和为图片样本的类别语义属性，和分别为两个视角的视觉特征空间到各自的潜在子空间的投影矩阵，和分别为两个视角的各自的潜在子空间权　利　要　求　书 1/7 页 2 CN 115424096 A 2到类别语义属性空间的投影矩阵， T为转置。 5.根据权利要求4所述的多视角零样本图像识别方法，其特征在于，步骤S22中，基于不同视角视觉特征之间的一致性和互补性原则，建立优化问题，实现步骤包括： S221建立基于类别语义属性空间的相似度模型的损失函数，若图片样本在各个视角上的视觉特征在类别语义属性空间的投影与图片样本对应的类别语义属性的相似度大于设定的阈值，则损失值为零； S222优化问题表示为：其中，tr(*)为矩阵的迹运算；为矩阵的 F‑范数；分别为已见类训练集中所有图片样本在两个不同视角上的视觉特征矩阵， n为样本数量，为已见类训练集中的所有图片样本对应的类别语义属性的矩阵，的每一列均为所有已见类的类别语义属性的平均值，的列数为已见类训练集中的图片样本数量； P1和P2分别为两个视角的潜在子空间到各自视觉特征空间的逆投影矩阵； I为单位矩阵；为损失函数中设定的阈值；和分别为两个视角上的松弛变量； β1，β2，C和为权系数。 6.根据权利要求5所述的多视角零样本图像识别方法，其特征在于，建立所述优化问题，具体原则包括： a)最小化图片样本的损失值； b)最小化图片样本在不同视角上的视觉特征在类别语义属性空间的投影的差异，从而满足不同视角之间的一致性原则； c)根据多视角视觉 ‑语义映射模型在图片样本每个单视角上的拟合表现调节其他视角上的损失值，从而满足不同视角之间的互补性原则； d)在多视角视觉‑语义映射模型中为每一个视角添加一个潜在子空间。 7.根据权利要求5所述的多视角零样本图像识别方法，其特征在于，所述步骤S23具体包括以下步骤： S231通过引入松弛变量，将公式(1)中的不等式约束改写成等价的等式约权　利　要　求　书 2/7 页 3 CN 115424096 A 3

专利 一种多视角零样本图像识别方法

专利一种多视角零样本图像识别方法