专利 图像标题文本确定方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210467945.9 (22)申请日 2022.04.29 (71)申请人北京三快在线科技有限公司地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人刘鎏　周鑫　左凯　曹佐　张弓　 (74)专利代理机构北京润泽恒知识产权代理有限公司 1 1319 专利代理师任亚娟 (51)Int.Cl. G06V 30/412(2022.01) G06V 30/413(2022.01) G06K 9/62(2022.01) G06V 10/44(2022.01) G06V 10/774(2022.01)G06V 10/80(2022.01) (54)发明名称图像标题文本确定方法、装置、电子设备及存储介质 (57)摘要本公开的实施例提供了一种图像标题文本确定方法、装置、电子设备及存储介质。所述方法包括：获取目标图像对应的文本特征和图像视觉特征；将所述文本特征和所述图像视觉特征输入至目标标题文本提取模型；基于所述目标标题文本提取模型对所述文本特征和所述图像视觉特征进行处理，确定所述目标图像对应的目标图像标题文本。本公开的实施例通过充分利用图像不同粒度特征及文本特征跨模态信息交互，对图像是否有编辑标题判断且准确提取与排序图中编辑标题，对图像优选在质量和相关性上带来一定的提升。权利要求书3页说明书12页附图3页 CN 114842488 A 2022.08.02 CN 114842488 A 1.一种图像标题文本确定方法，其特征在于，包括：获取目标图像对应的文本特征和图像视觉特征；将所述文本特征和所述图像视觉特征输入至目标标题文本提取模型；基于所述目标标题文本提取模型对所述文本特征和所述图像视觉特征进行处理，确定所述目标图像对应的目标图像标题文本。 2.根据权利要求1所述的方法，其特征在于，所述获取目标图像对应的文本特征和图像视觉特征，包括：基于字符识别技术，识别所述目标图像中的图像文本；基于所述图像文本在所述目标图像内的区域，对所述目标图像进行裁剪，生成文本区域图像和非文本区域图像；基于预训练特征提取模型分别对所述文本区域图像和所述非文本区域图像进行特征提取处理，得到所述文本特征和所述图像视觉特征。 3.根据权利要求1所述的方法，其特征在于，在所述将所述文本特征和所述图像视觉特征输入至目标标题文本提取模型之前，还包括：获取样本图像；所述样本图像为包含文本的图像，所述样本图像对应于一个初始标题文本标签；获取所述样本图像对应的样本文本特征和样本图像视觉特征；将所述样本文本特征和所述样本图像视觉特征输入至待训练标题文本提取模型；所述待训练标题文本提取模型包括：编码层和预测层；调用所述编码层对所述样本文本特征和所述样本图像视觉特征进行融合处理，生成图像融合特征；调用所述预测层对所述图像融合特征进行预测处理，得到预测标题文本标签；基于所述初始标题文本标签和所述预测标题文本标签，计算得到所述待训练标题文本提取模型对应的损失值；在所述损失值处于预设范围内的情况下，将训练后的待训练标题文本提取模型作为所述目标标题文本提取模型。 4.根据权利要求3所述的方法，其特征在于，所述预测层包括：第一标题预测层、第二标题预测层和文本顺序预测层，所述调用所述预测层对所述图像融合特征进行预测处理，得到预测标题文本标签，包括：调用所述第一标题预测层对所述图像融合特征进行预测处理，生成用于预测图像内是否包含编辑标题文本的第一预测标签；调用所述第二标题预测层对所述图像融合特征进行预测处理，生成用于预测文本是否构成用户编辑标题的第二预测标签；调用所述文本顺序预测层对所述图像融合特征进行预测处理，生成用于预测文本在用户编辑标题文本的顺序的第三预测标签；根据所述第一预测标签、所述第二预测标签和所述第三预测标签，确定所述预测标题文本标签。 5.根据权利要求1所述的方法，其特征在于，所述目标标题文本提取模型包括：编码层权　利　要　求　书 1/3 页 2 CN 114842488 A 2和预测层，所述基于所述目标标题文本提取模型对所述文本特征和所述图像视觉特征进行处理，确定所述目标图像对应的目标图像标题文本，包括：调用所述编码层对所述文本特征和所述图像视觉特征进行融合处理，生成目标图像融合特征；调用所述预测层对所述目标图像融合特征进行标题预测处理，得到所述目标图像对应的目标图像标题文本。 6.一种图像标题文本确定装置，其特征在于，包括：图像特征获取模块，用于获取目标图像对应的文本特征和图像视觉特征；图像特征输入模块，用于将所述文本特征和所述图像视觉特征输入至目标标题文本提取模型；图像标题确定模块，用于基于所述目标标题文本提取模型对所述文本特征和所述图像视觉特征进行处理，确定所述目标图像对应的目标图像标题文本。 7.根据权利要求6所述的装置，其特征在于，所述图像特征获取模块包括：图像文本识别单元，用于基于字符识别技术，识别所述目标图像中的图像文本；区域图像生成单元，用于基于所述图像文本在所述目标图像内的区域，对所述目标图像进行裁剪，生成文本区域图像和非文本区域图像；图像特征获取单元，用于基于预训练特征提取模型分别对所述文本区域图像和所述非文本区域图像进行特征提取处理，得到所述文本特征和所述图像视觉特征。 8.根据权利要求6所述的装置，其特征在于，所述装置还包括：样本图像获取模块，用于获取样本图像；所述样本图像为包含文本的图像，所述样本图像对应于一个初始标题文本标签；样本图像特征获取模块，用于获取所述样本图像对应的样本文本特征和样本图像视觉特征；样本图像特征输入模块，用于将所述样本文本特征和所述样本图像视觉特征输入至待训练标题文本提取模型；所述待训练标题文本提取模型包括：编码层和预测层；图像融合特征生成模块，用于调用所述编码层对所述样本文本特征和所述样本图像视觉特征进行融合处理，生成图像融合特征；预测标题标签获取模块，用于调用所述预测层对所述图像融合特征进行预测处理，得到预测标题文本标签；损失值计算模块，用于基于所述初始标题文本标签和所述预测标题文本标签，计算得到所述待训练标题文本提取模型对应的损失值；目标标题提取模型获取模块，用于在所述损失值处于预设范围内的情况下，将训练后的待训练标题文本提取模型作为所述目标标题文本提取模型。 9.根据权利要求8所述的装置，其特征在于，所述预测层包括：第一标题预测层、第二标题预测层和文本顺序预测层，所述预测标题标签获取模块包括：第一预测标签生成单元，用于调用所述第一标题预测层对所述图像融合特征进行预测处理，生成用于预测图像内是否包含编辑标题文本的第一预测标签；权　利　要　求　书 2/3 页 3 CN 114842488 A 3

专利 图像标题文本确定方法、装置、电子设备及存储介质

专利图像标题文本确定方法、装置、电子设备及存储介质