(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210416063.X
(22)申请日 2022.04.20
(71)申请人 平安科技 (深圳) 有限公司
地址 518000 广东省深圳市福田区福田街
道福安社区益田路5033号平 安金融中
心23楼
(72)发明人 舒畅 陈又新
(74)专利代理 机构 广州嘉权专利商标事务所有
限公司 4 4205
专利代理师 廖慧贤
(51)Int.Cl.
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
图像描述生 成方法和装置、 电子设备及存储
介质
(57)摘要
本申请实施例提供了一种图像描述生成方
法和装置、 电子设备及存储介质, 属于人工智能
技术领域。 该图像描述生成方法包括: 获取目标
图像; 对目标图像进行图像编码处理, 得到目标
图像特征向量; 通过预设的目标检测模型对目标
图像特征向量进行目标检测, 得到目标图像特征
矩阵; 通过预设的文本生 成模型对目标图像特征
矩阵进行语义分析, 得到候选文本序列; 根据预
设的句子长度和图像描述类别标签对候选文本
序列进行筛选处理, 得到目标文本序列; 对目标
文本序列进行拼接处理, 得到目标图像描述信
息, 其中, 目标图像描述信息包括图像描述类别
标签对应的图像局部特征。 本申请实施例能够提
高生成的图像描述信息的准确性。
权利要求书3页 说明书15页 附图5页
CN 114781393 A
2022.07.22
CN 114781393 A
1.一种图像描述 生成方法, 其特 征在于, 所述方法包括:
获取目标图像;
对所述目标图像进行图像编码处 理, 得到目标图像特 征向量;
通过预设的目标检测模型对所述目标图像特征向量进行目标检测, 得到目标图像特征
矩阵;
通过预设的文本生成模型对所述目标图像特征矩阵进行语义分析, 得到候选文本序
列;
根据预设的句子长度和图像描述类别标签对所述候选文本序列进行筛选处理, 得到目
标文本序列;
对所述目标文本序列进行拼接处理, 得到目标图像描述信 息, 其中, 所述目标图像描述
信息包括所述图像描述类别标签对应的图像局部特 征。
2.根据权利要求1所述的图像描述生成方法, 其特征在于, 所述对所述目标图像进行图
像编码处 理, 得到目标图像特 征向量的步骤, 包括:
将所述目标图像输入至预设的编码模型中, 其中, 所述编码模型包括第 一卷积层、 第一
池化层以及第一全连接层;
通过所述第一卷积层对所述目标图像进行 卷积处理, 得到卷积图像特 征;
通过所述第一池化层对所述卷积图像特 征进行池化处 理, 得到池化图像特 征;
通过所述第 一全连接层将所述池化图像特征映射到预设 向量空间, 得到所述目标图像
特征向量。
3.根据权利要求2所述的图像描述生成方法, 其特征在于, 所述通过所述第 一全连接层
将所述池化图像特 征映射到预设向量空间, 得到所述目标图像特 征向量的步骤, 包括:
获取所述预设向量空间的特 征维度参数;
通过所述第 一全连接层的MLP网络和所述特征维度参数将所述池化图像特征映射到预
设向量空间, 得到所述目标图像特 征向量。
4.根据权利要求1所述的图像描述生成方法, 其特征在于, 所述目标检测模型包括第 二
卷积层、 RPN层、 第二池化层以及第二全连接层, 所述通过预设的目标检测模型对所述目标
图像特征向量进行目标检测, 得到目标图像特 征矩阵的步骤, 包括:
通过所述第二卷积层对所述目标图像特 征向量进行全局特 征提取, 得到目标 特征图;
通过所述RPN层、 所述第二池化层和预设的坐标参数对所述目标特征图进行目标检测,
得到目标检测点;
通过所述第 二全连接层的第 一函数对所述目标检测点进行标签概率计算, 得到每一预
设标签类别的概 率向量;
根据所述 概率向量对所述目标检测点进行位置偏移处 理, 得到候选图像区域;
通过所述第 二全连接层将所述候选图像区域映射到预设特征图谱中, 得到所述目标图
像特征矩阵。
5.根据权利要求4所述的图像描述生成方法, 其特征在于, 所述通过所述RPN层、 所述第
二池化层和预设的坐标参数对所述 目标特征图进行目标检测, 得到目标检测 点的步骤, 包
括:
通过所述RPN层和所述 坐标参数对所述目标 特征图进行空间变换, 得到初始检测区域;权 利 要 求 书 1/3 页
2
CN 114781393 A
2通过所述第 二池化层对所述初始检测区域与参考检测区域进行重合度计算, 得到重合
值;
根据所述重合值对所述初始检测区域的候选检测点进行筛选处理, 得到所述目标检测
点。
6.根据权利要求4所述的图像描述生成方法, 其特征在于, 所述通过所述第 二全连接层
将所述候选图像区域映射到预设特 征图谱中, 得到所述目标图像特 征矩阵的步骤, 包括:
获取所述候选图像区域的候选坐标点;
通过所述第 二全连接层中的预设放缩参数对所述候选坐标点进行位置微调, 得到目标
坐标点;
根据所述目标坐标点将所述候选图像区域映射至所述预设特征图谱, 得到所述目标图
像特征矩阵。
7.根据权利要求1至6任一项所述的图像描述生成方法, 其特征在于, 所述文本生成模
型包括第三卷积层和GRU层, 所述通过预设的文本生成模型对所述目标图像特征矩阵进行
语义分析, 得到候选文本序列的步骤, 包括:
通过所述第 三卷积层对所述目标图像特征矩阵进行向量化处理, 得到目标图像特征向
量;
通过所述GRU层和预设的字符索引标签对所述目标图像特征向量进行采样处理, 得到
候选词段;
通过所述GRU层的第二函数对所述候选词段进行分布概率计算, 得到所述候选词段在
预设单词表中的分布概 率值;
根据所述分布概率值对所述候选词段进行筛选处理, 得到目标单词, 并根据所述目标
单词生成所述 候选文本序列。
8.一种图像描述 生成装置, 其特 征在于, 所述装置包括:
图像获取模块, 用于获取目标图像;
图像编码模块, 用于对所述目标图像进行图像编码处 理, 得到目标图像特 征向量;
检测模块, 用于通过预设的目标检测模型对所述目标图像特征向量进行目标检测, 得
到目标图像特 征矩阵;
语义分析模块, 用于通过预设的文本生成模型对所述目标图像特征矩阵进行语义分
析, 得到候选文本序列;
筛选模块, 用于根据 预设的句子长度和图像描述类别标签对所述候选文本序列进行筛
选处理, 得到目标文本序列;
拼接模块, 对所述目标文本序列进行拼接处理, 得到目标图像描述信息, 其中, 所述目
标图像描述信息包括所述图像描述类别标签对应的图像局部特 征。
9.一种电子设备, 其特征在于, 所述电子设备包括存储器、 处理器、 存储在所述存储器
上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通
信的数据总线, 所述程序被所述处理器执行时实现如权利要求1至7任一项所述的图像描述
生成方法的步骤。
10.一种存储介质, 所述存储介质为计算机可读存储介质, 用于计算机可读存储, 其特
征在于, 所述存储介质存储有一个或者多个程序, 所述一个或者多个程序可被一个或者多权 利 要 求 书 2/3 页
3
CN 114781393 A
3
专利 图像描述生成方法和装置、电子设备及存储介质
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:27上传分享