(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210439734.4
(22)申请日 2022.04.25
(71)申请人 中国科学院计算 技术研究所
地址 100190 北京市海淀区中关村科 学院
南路6号
(72)发明人 王树徽 闫旭 黄庆明
(74)专利代理 机构 北京泛华伟业知识产权代理
有限公司 1 1280
专利代理师 王勇
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06F 16/583(2019.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于动态早退的图像描述生成模型及
模型训练方法
(57)摘要
本发明提供一种基于动态早退的图像描述
生成模型, 包括: 视觉编码器, 用于提取图像的视
觉特征, 其包括多个依次串联的编码层; 文本解
码器, 用于对视觉编码器输出的视觉特征进行解
码并依次输出多个预测词汇表中的单词以组成
图像的自然语 言描述文本, 其包括多个依次串 联
的解码层, 每个解码层配置有一个动态早退决策
模块和一个模仿学习网络; 其中: 所述每个动态
早退决策模块用于在单词预测过程中根据预测
词汇表中的单词预测概率判断当前预测是否需
要提前退出、 并在预测词汇表中单词的预测概率
中的最大概率超过可信度阈值时输出该最大概
率对应的单词; 所述每个模仿学习网络用于根据
输入模仿预测其对应解码层的输出隐含层状态
向量。
权利要求书3页 说明书9页 附图4页
CN 114743056 A
2022.07.12
CN 114743056 A
1.一种基于动态早退的图像描述生成模型, 用于根据输入图像输出图像的自然语言描
述文本, 其特 征在于, 所述图像描述 生成模型包括:
视觉编码器, 用于提取图像的视 觉特征, 其包括多个依次串联的编码层;
文本解码器, 用于对视觉编码器输出的视觉特征进行解码并依次输出多个预测词汇表
中的单词以组成图像的自然语言描述文本, 其包括多个依 次串联的解码层, 每个解码层配
置有一个动态早退决策模块和一个模仿学习网络; 其中:
所述每个动态早退决策模块用于在单词预测过程中根据预测词汇表中的单词预测概
率判断当前预测是否需要提前退出、 并在预测词汇表中单词的预测概率中的最大概率超过
可信度阈值时输出该最大概率对应的单词, 所述每个动态早退决策模块的输入端连接其对
应解码层及其之前 的所有解码层的输出以及其对应解码层之后的所有解码层对应的模仿
学习网络的输出;
所述每个模仿学习网络的输入端连接其对应解码层及其之前的所有解码层的输出, 用
于根据输入 模仿预测其对应解码层的输出隐含层状态向量。
2.根据权利要求1所述的模型, 其特征在于, 所述每个编码层包括依次连接的自注意力
层和前馈神经网络 。
3.根据权利要求2所述的模型, 其特征在于, 所述每个解码层包括依次连接的自注意力
层、 编码‑解码自注意力层、 前馈神经网络 。
4.根据权利要去3所述的模型, 其特征在于, 所述每个动态早退 决策模块包括浅层特征
融合层、 深层特 征融合层、 融合门控层、 分类层, 其中:
所述浅层特征融合层用于将其所在动态早退决策模块对应解码层及该解码层之前的
所有解码层的隐含层状态向量进行 特征融合以获得浅层融合特 征向量;
所述深层特征融合层用于将其所在动态早退决策模块对应解码层之后的所有解码层
对应的模仿学习网络的隐含层状态向量进行 特征融合以获得深层融合特 征向量;
所述融合门控层用于将浅层融合特征向量和深层融合特征向量进行特征融合以获得
最终融合特 征向量;
所述分类层被配置为全连接层, 用于根据最终的融合特征向量输出预测词汇表中每个
单词的预测概 率。
5.根据权利要求4所述的方法, 其特征在于, 所述浅层特征融合层采用如下方式中的任
一种进行 特征融合:
拼接、 注意力加权、 时序模型。
6.根据权利要求4所述的方法, 其特征在于, 所述深层特征融合层采用如下方式中的任
一种进行 特征融合:
拼接、 注意力加权、 时序模型。
7.根据权利要求4所述的模型, 其特征在于, 所述每个模仿学习网络包括前馈神经网
络。
8.根据权利要求5所述的模型, 其特征在于, 所述视觉编码器包括6个编码层, 所述文本
解码器包括6个解码层。
9.一种训练如权利要求1 ‑8任一所述的图像描述生成模型的方法, 其特征在于, 所述方
法包括:权 利 要 求 书 1/3 页
2
CN 114743056 A
2S1、 获取图像集以及图像集中所有图像对应的自然语言描述文本, 将每个图像与其对
应的一句自然语言描述文本组成一个样本, 构成数据集, 并将数据集划分为训练集和测试
集, 所有图像对应的自然语言文本中的单词组成预测词汇 表;
S2、 采用训练集将图像生成描述模型训练至收敛;
S3、 采用测试集对训练完成的图像生成描述模型进行测试, 并设置每个解码层对应动
态早退决策模块的可信度阈值, 以使动态早退决策模块在单词预测过程中根据预测词汇表
中的单词预测概率判断当前预测是否需要提前退出、 并在预测词汇表中单词的预测概率中
的最大概 率超过可信度阈值时输出 该最大概 率对应的单词。
10.根据权利要求9所述的方法, 其特 征在于, 所述 步骤S1包括:
S11、 获取图像集以及图像集中所有图像对应的自然语言描述文本, 将对应的自然语言
描述文本超过一句的图像按照其对应自然语言描述文本的句数进 行复制, 以使一句文本对
应一副图像形成图像 ‑文本对, 所有的图像 ‑文本对作为样本组成数据集;
S12、 将图像集所有图像对应的所有自然语言文本进行预处理以提取文本中的所有单
词, 统计单词出现频率并删除出现次数少于预设频次的单词后获得 预测词汇 表;
S13、 将数据集划分训练集和 测试集。
11.根据权利要求9所述的方法, 其特征在于, 所述步骤S2中采用 如下损失函数对模型
进行训练:
L= λ·Lce+(1‑λ )·Limit
其中, λ为调节动态早退决策模块和模仿学习网络影响的平衡因子, Lce为预测单词与正
确单词之间的交叉熵损失, Limit为模仿学习网络模仿生成的预测隐含层状态向量与解码层
输出的真实隐含层状态向量之间的模仿损失。
12.根据权利要求11所述的方法, 其特征在于, 通过如下方式计算预测单词与正确单词
之间的交叉熵损失:
pm=softmax(zm)
其中, N是解码层的总层数, yi表示预测得到的单词, softm ax表示激活函数, zm表示输入
第m个分类模块的最终融合特 征向量。
13.根据权利要去12所述的方法, 其特征在于, 所述最终融合特征向量通过如下方式计
算:
zm=α hshallow+(1‑α )hdeep
α =σ(FFN(hshallow))
其中, hshallow是第m个动态早退决策模 块对应的解码层及该解码层之前的所有 解码层的
隐含层状态向量进行特征融合后获得浅层融合特征向量, hdeep是第m个动态早退决策模块
对应解码层之后的所有解码层对应的模仿学习网络的隐含层状态向量进行特征融合后 获
得深层融合特 征向量, F FN(·)表示前馈神经网络, σ 表示sigmo id激活函数。
14.根据权利要求11所述的方法, 其特征在于, 通过如下方式计算模仿学习网络模仿生
成的预测隐含层状态向量与解码层输出的真实隐含层状态向量之间的模仿损失:权 利 要 求 书 2/3 页
3
CN 114743056 A
3
专利 一种基于动态早退的图像描述生成模型及模型训练方法
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:32:36上传分享