专利 一种基于动态早退的图像描述生成模型及模型训练方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210439734.4 (22)申请日 2022.04.25 (71)申请人中国科学院计算技术研究所地址 100190 北京市海淀区中关村科学院南路6号 (72)发明人王树徽　闫旭　黄庆明　 (74)专利代理机构北京泛华伟业知识产权代理有限公司 1 1280 专利代理师王勇 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06F 16/583(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于动态早退的图像描述生成模型及模型训练方法 (57)摘要本发明提供一种基于动态早退的图像描述生成模型，包括：视觉编码器，用于提取图像的视觉特征，其包括多个依次串联的编码层；文本解码器，用于对视觉编码器输出的视觉特征进行解码并依次输出多个预测词汇表中的单词以组成图像的自然语言描述文本，其包括多个依次串联的解码层，每个解码层配置有一个动态早退决策模块和一个模仿学习网络；其中：所述每个动态早退决策模块用于在单词预测过程中根据预测词汇表中的单词预测概率判断当前预测是否需要提前退出、并在预测词汇表中单词的预测概率中的最大概率超过可信度阈值时输出该最大概率对应的单词；所述每个模仿学习网络用于根据输入模仿预测其对应解码层的输出隐含层状态向量。权利要求书3页说明书9页附图4页 CN 114743056 A 2022.07.12 CN 114743056 A 1.一种基于动态早退的图像描述生成模型，用于根据输入图像输出图像的自然语言描述文本，其特征在于，所述图像描述生成模型包括：视觉编码器，用于提取图像的视觉特征，其包括多个依次串联的编码层；文本解码器，用于对视觉编码器输出的视觉特征进行解码并依次输出多个预测词汇表中的单词以组成图像的自然语言描述文本，其包括多个依次串联的解码层，每个解码层配置有一个动态早退决策模块和一个模仿学习网络；其中：所述每个动态早退决策模块用于在单词预测过程中根据预测词汇表中的单词预测概率判断当前预测是否需要提前退出、并在预测词汇表中单词的预测概率中的最大概率超过可信度阈值时输出该最大概率对应的单词，所述每个动态早退决策模块的输入端连接其对应解码层及其之前的所有解码层的输出以及其对应解码层之后的所有解码层对应的模仿学习网络的输出；所述每个模仿学习网络的输入端连接其对应解码层及其之前的所有解码层的输出，用于根据输入模仿预测其对应解码层的输出隐含层状态向量。 2.根据权利要求1所述的模型，其特征在于，所述每个编码层包括依次连接的自注意力层和前馈神经网络。 3.根据权利要求2所述的模型，其特征在于，所述每个解码层包括依次连接的自注意力层、编码‑解码自注意力层、前馈神经网络。 4.根据权利要去3所述的模型，其特征在于，所述每个动态早退决策模块包括浅层特征融合层、深层特征融合层、融合门控层、分类层，其中：所述浅层特征融合层用于将其所在动态早退决策模块对应解码层及该解码层之前的所有解码层的隐含层状态向量进行特征融合以获得浅层融合特征向量；所述深层特征融合层用于将其所在动态早退决策模块对应解码层之后的所有解码层对应的模仿学习网络的隐含层状态向量进行特征融合以获得深层融合特征向量；所述融合门控层用于将浅层融合特征向量和深层融合特征向量进行特征融合以获得最终融合特征向量；所述分类层被配置为全连接层，用于根据最终的融合特征向量输出预测词汇表中每个单词的预测概率。 5.根据权利要求4所述的方法，其特征在于，所述浅层特征融合层采用如下方式中的任一种进行特征融合：拼接、注意力加权、时序模型。 6.根据权利要求4所述的方法，其特征在于，所述深层特征融合层采用如下方式中的任一种进行特征融合：拼接、注意力加权、时序模型。 7.根据权利要求4所述的模型，其特征在于，所述每个模仿学习网络包括前馈神经网络。 8.根据权利要求5所述的模型，其特征在于，所述视觉编码器包括6个编码层，所述文本解码器包括6个解码层。 9.一种训练如权利要求1 ‑8任一所述的图像描述生成模型的方法，其特征在于，所述方法包括：权　利　要　求　书 1/3 页 2 CN 114743056 A 2S1、获取图像集以及图像集中所有图像对应的自然语言描述文本，将每个图像与其对应的一句自然语言描述文本组成一个样本，构成数据集，并将数据集划分为训练集和测试集，所有图像对应的自然语言文本中的单词组成预测词汇表； S2、采用训练集将图像生成描述模型训练至收敛； S3、采用测试集对训练完成的图像生成描述模型进行测试，并设置每个解码层对应动态早退决策模块的可信度阈值，以使动态早退决策模块在单词预测过程中根据预测词汇表中的单词预测概率判断当前预测是否需要提前退出、并在预测词汇表中单词的预测概率中的最大概率超过可信度阈值时输出该最大概率对应的单词。 10.根据权利要求9所述的方法，其特征在于，所述步骤S1包括： S11、获取图像集以及图像集中所有图像对应的自然语言描述文本，将对应的自然语言描述文本超过一句的图像按照其对应自然语言描述文本的句数进行复制，以使一句文本对应一副图像形成图像 ‑文本对，所有的图像 ‑文本对作为样本组成数据集； S12、将图像集所有图像对应的所有自然语言文本进行预处理以提取文本中的所有单词，统计单词出现频率并删除出现次数少于预设频次的单词后获得预测词汇表； S13、将数据集划分训练集和测试集。 11.根据权利要求9所述的方法，其特征在于，所述步骤S2中采用如下损失函数对模型进行训练： L＝ λ·Lce+(1‑λ )·Limit 其中， λ为调节动态早退决策模块和模仿学习网络影响的平衡因子， Lce为预测单词与正确单词之间的交叉熵损失， Limit为模仿学习网络模仿生成的预测隐含层状态向量与解码层输出的真实隐含层状态向量之间的模仿损失。 12.根据权利要求11所述的方法，其特征在于，通过如下方式计算预测单词与正确单词之间的交叉熵损失： pm＝softmax(zm) 其中， N是解码层的总层数， yi表示预测得到的单词， softm ax表示激活函数， zm表示输入第m个分类模块的最终融合特征向量。 13.根据权利要去12所述的方法，其特征在于，所述最终融合特征向量通过如下方式计算： zm＝α hshallow+(1‑α )hdeep α ＝σ(FFN(hshallow)) 其中， hshallow是第m个动态早退决策模块对应的解码层及该解码层之前的所有解码层的隐含层状态向量进行特征融合后获得浅层融合特征向量， hdeep是第m个动态早退决策模块对应解码层之后的所有解码层对应的模仿学习网络的隐含层状态向量进行特征融合后获得深层融合特征向量， F FN(·)表示前馈神经网络， σ 表示sigmo id激活函数。 14.根据权利要求11所述的方法，其特征在于，通过如下方式计算模仿学习网络模仿生成的预测隐含层状态向量与解码层输出的真实隐含层状态向量之间的模仿损失：权　利　要　求　书 2/3 页 3 CN 114743056 A 3

专利 一种基于动态早退的图像描述生成模型及模型训练方法

专利一种基于动态早退的图像描述生成模型及模型训练方法