专利 图像描述生成方法和装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210416063.X (22)申请日 2022.04.20 (71)申请人平安科技（深圳）有限公司地址 518000 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼 (72)发明人舒畅　陈又新　 (74)专利代理机构广州嘉权专利商标事务所有限公司 4 4205 专利代理师廖慧贤 (51)Int.Cl. G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称图像描述生成方法和装置、电子设备及存储介质 (57)摘要本申请实施例提供了一种图像描述生成方法和装置、电子设备及存储介质，属于人工智能技术领域。该图像描述生成方法包括：获取目标图像；对目标图像进行图像编码处理，得到目标图像特征向量；通过预设的目标检测模型对目标图像特征向量进行目标检测，得到目标图像特征矩阵；通过预设的文本生成模型对目标图像特征矩阵进行语义分析，得到候选文本序列；根据预设的句子长度和图像描述类别标签对候选文本序列进行筛选处理，得到目标文本序列；对目标文本序列进行拼接处理，得到目标图像描述信息，其中，目标图像描述信息包括图像描述类别标签对应的图像局部特征。本申请实施例能够提高生成的图像描述信息的准确性。权利要求书3页说明书15页附图5页 CN 114781393 A 2022.07.22 CN 114781393 A 1.一种图像描述生成方法，其特征在于，所述方法包括：获取目标图像；对所述目标图像进行图像编码处理，得到目标图像特征向量；通过预设的目标检测模型对所述目标图像特征向量进行目标检测，得到目标图像特征矩阵；通过预设的文本生成模型对所述目标图像特征矩阵进行语义分析，得到候选文本序列；根据预设的句子长度和图像描述类别标签对所述候选文本序列进行筛选处理，得到目标文本序列；对所述目标文本序列进行拼接处理，得到目标图像描述信息，其中，所述目标图像描述信息包括所述图像描述类别标签对应的图像局部特征。 2.根据权利要求1所述的图像描述生成方法，其特征在于，所述对所述目标图像进行图像编码处理，得到目标图像特征向量的步骤，包括：将所述目标图像输入至预设的编码模型中，其中，所述编码模型包括第一卷积层、第一池化层以及第一全连接层；通过所述第一卷积层对所述目标图像进行卷积处理，得到卷积图像特征；通过所述第一池化层对所述卷积图像特征进行池化处理，得到池化图像特征；通过所述第一全连接层将所述池化图像特征映射到预设向量空间，得到所述目标图像特征向量。 3.根据权利要求2所述的图像描述生成方法，其特征在于，所述通过所述第一全连接层将所述池化图像特征映射到预设向量空间，得到所述目标图像特征向量的步骤，包括：获取所述预设向量空间的特征维度参数；通过所述第一全连接层的MLP网络和所述特征维度参数将所述池化图像特征映射到预设向量空间，得到所述目标图像特征向量。 4.根据权利要求1所述的图像描述生成方法，其特征在于，所述目标检测模型包括第二卷积层、 RPN层、第二池化层以及第二全连接层，所述通过预设的目标检测模型对所述目标图像特征向量进行目标检测，得到目标图像特征矩阵的步骤，包括：通过所述第二卷积层对所述目标图像特征向量进行全局特征提取，得到目标特征图；通过所述RPN层、所述第二池化层和预设的坐标参数对所述目标特征图进行目标检测，得到目标检测点；通过所述第二全连接层的第一函数对所述目标检测点进行标签概率计算，得到每一预设标签类别的概率向量；根据所述概率向量对所述目标检测点进行位置偏移处理，得到候选图像区域；通过所述第二全连接层将所述候选图像区域映射到预设特征图谱中，得到所述目标图像特征矩阵。 5.根据权利要求4所述的图像描述生成方法，其特征在于，所述通过所述RPN层、所述第二池化层和预设的坐标参数对所述目标特征图进行目标检测，得到目标检测点的步骤，包括：通过所述RPN层和所述坐标参数对所述目标特征图进行空间变换，得到初始检测区域；权　利　要　求　书 1/3 页 2 CN 114781393 A 2通过所述第二池化层对所述初始检测区域与参考检测区域进行重合度计算，得到重合值；根据所述重合值对所述初始检测区域的候选检测点进行筛选处理，得到所述目标检测点。 6.根据权利要求4所述的图像描述生成方法，其特征在于，所述通过所述第二全连接层将所述候选图像区域映射到预设特征图谱中，得到所述目标图像特征矩阵的步骤，包括：获取所述候选图像区域的候选坐标点；通过所述第二全连接层中的预设放缩参数对所述候选坐标点进行位置微调，得到目标坐标点；根据所述目标坐标点将所述候选图像区域映射至所述预设特征图谱，得到所述目标图像特征矩阵。 7.根据权利要求1至6任一项所述的图像描述生成方法，其特征在于，所述文本生成模型包括第三卷积层和GRU层，所述通过预设的文本生成模型对所述目标图像特征矩阵进行语义分析，得到候选文本序列的步骤，包括：通过所述第三卷积层对所述目标图像特征矩阵进行向量化处理，得到目标图像特征向量；通过所述GRU层和预设的字符索引标签对所述目标图像特征向量进行采样处理，得到候选词段；通过所述GRU层的第二函数对所述候选词段进行分布概率计算，得到所述候选词段在预设单词表中的分布概率值；根据所述分布概率值对所述候选词段进行筛选处理，得到目标单词，并根据所述目标单词生成所述候选文本序列。 8.一种图像描述生成装置，其特征在于，所述装置包括：图像获取模块，用于获取目标图像；图像编码模块，用于对所述目标图像进行图像编码处理，得到目标图像特征向量；检测模块，用于通过预设的目标检测模型对所述目标图像特征向量进行目标检测，得到目标图像特征矩阵；语义分析模块，用于通过预设的文本生成模型对所述目标图像特征矩阵进行语义分析，得到候选文本序列；筛选模块，用于根据预设的句子长度和图像描述类别标签对所述候选文本序列进行筛选处理，得到目标文本序列；拼接模块，对所述目标文本序列进行拼接处理，得到目标图像描述信息，其中，所述目标图像描述信息包括所述图像描述类别标签对应的图像局部特征。 9.一种电子设备，其特征在于，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现如权利要求1至7任一项所述的图像描述生成方法的步骤。 10.一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，其特征在于，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多权　利　要　求　书 2/3 页 3 CN 114781393 A 3

专利 图像描述生成方法和装置、电子设备及存储介质

专利图像描述生成方法和装置、电子设备及存储介质