安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210467945.9 (22)申请日 2022.04.29 (71)申请人 北京三快在线科技有限公司 地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人 刘鎏 周鑫 左凯 曹佐 张弓  (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 任亚娟 (51)Int.Cl. G06V 30/412(2022.01) G06V 30/413(2022.01) G06K 9/62(2022.01) G06V 10/44(2022.01) G06V 10/774(2022.01)G06V 10/80(2022.01) (54)发明名称 图像标题文本确定方法、 装置、 电子设备及 存储介质 (57)摘要 本公开的实施例提供了一种图像标题文本 确定方法、 装置、 电子设备及存储介质。 所述方法 包括: 获取目标图像对应的文本特征和图像视觉 特征; 将所述文本特征和所述图像视觉特征输入 至目标标题文本提取模型; 基于所述目标标题文 本提取模型对所述文本特征和所述图像视觉特 征进行处理, 确定所述目标图像对应的目标图像 标题文本。 本公开的实施例通过充分利用图像不 同粒度特征及文本特征跨模态信息交互, 对图像 是否有编辑标题判断且准确提取与排序图中编 辑标题, 对图像优选在质量和相关性上带来一定 的提升。 权利要求书3页 说明书12页 附图3页 CN 114842488 A 2022.08.02 CN 114842488 A 1.一种图像标题文本确定方法, 其特 征在于, 包括: 获取目标图像对应的文本特 征和图像视 觉特征; 将所述文本特 征和所述图像视 觉特征输入至目标 标题文本提取模型; 基于所述目标标题文本提取模型对所述文本特征和所述图像视觉特征进行处理, 确定 所述目标图像对应的目标图像标题文本 。 2.根据权利要求1所述的方法, 其特征在于, 所述获取目标图像对应的文本特征和图像 视觉特征, 包括: 基于字符识别技 术, 识别所述目标图像中的图像文本; 基于所述图像文本在所述目标图像内的区域, 对所述目标图像进行裁剪, 生成文本区 域图像和非文本区域图像; 基于预训练特征提取模型分别对所述文本区域图像和所述非文本区域图像进行特征 提取处理, 得到所述文本特 征和所述图像视 觉特征。 3.根据权利要求1所述的方法, 其特征在于, 在所述将所述文本特征和所述图像视觉特 征输入至目标 标题文本提取模型之前, 还 包括: 获取样本 图像; 所述样本 图像为包含文本的图像, 所述样本 图像对应于一个初始标题 文本标签; 获取所述样本图像对应的样本文本特 征和样本图像视 觉特征; 将所述样本文本特征和所述样本图像视觉特征输入至待训练标题文本提取模型; 所述 待训练标题文本提取模型包括: 编码层和预测层; 调用所述编码层对所述样本文本特征和所述样本图像视觉特征进行融合处理, 生成图 像融合特 征; 调用所述预测层对所述图像融合特 征进行预测处理, 得到预测标题文本标签; 基于所述初始标题文本标签和所述预测标题文本标签, 计算得到所述待训练标题文本 提取模型对应的损失值; 在所述损失值处于预设范围内的情况下, 将训练后的待训练标题文本提取模型作为所 述目标标题文本提取模型。 4.根据权利要求3所述的方法, 其特征在于, 所述预测层包括: 第一标题预测层、 第二标 题预测层和文本顺序预测层, 所述调用所述预测层对所述图像融合特征进行预测 处理, 得到预测标题文本标签, 包 括: 调用所述第 一标题预测层对所述图像融合特征进行预测处理, 生成用于预测图像 内是 否包含编辑标题文本的第一预测标签; 调用所述第 二标题预测层对所述图像融合特征进行预测处理, 生成用于预测文本是否 构成用户编辑标题的第二预测标签; 调用所述文本顺序预测层对所述图像融合特征进行预测处理, 生成用于预测文本在用 户编辑标题文本的顺序的第三预测标签; 根据所述第一预测标签、 所述第二预测标签和所述第三预测标签, 确定所述预测标题 文本标签。 5.根据权利要求1所述的方法, 其特征在于, 所述目标标题文本提取模型包括: 编码层权 利 要 求 书 1/3 页 2 CN 114842488 A 2和预测层, 所述基于所述目标标题文本提取模型对所述文本特征和所述图像视觉特征进行处理, 确定所述目标图像对应的目标图像标题文本, 包括: 调用所述编码层对所述文本特征和所述图像视觉特征进行融合处理, 生成 目标图像融 合特征; 调用所述预测层对所述目标图像融合特征进行标题预测处理, 得到所述目标图像对应 的目标图像标题文本 。 6.一种图像标题文本确定装置, 其特 征在于, 包括: 图像特征获取模块, 用于获取目标图像对应的文本特 征和图像视 觉特征; 图像特征输入模块, 用于将所述文本特征和所述图像视觉特征输入至目标标题文本提 取模型; 图像标题确定模块, 用于基于所述目标标题文本提取模型对所述文本特征和所述图像 视觉特征进行处 理, 确定所述目标图像对应的目标图像标题文本 。 7.根据权利要求6所述的装置, 其特 征在于, 所述图像特 征获取模块包括: 图像文本识别单 元, 用于基于 字符识别技 术, 识别所述目标图像中的图像文本; 区域图像生成单元, 用于基于所述图像文本在所述目标图像内的区域, 对所述目标图 像进行裁 剪, 生成文本区域图像和非文本区域图像; 图像特征获取单元, 用于基于预训练特征提取模型分别对所述文本区域图像和所述非 文本区域图像进行 特征提取处 理, 得到所述文本特 征和所述图像视 觉特征。 8.根据权利要求6所述的装置, 其特 征在于, 所述装置还 包括: 样本图像获取模块, 用于获取样本图像; 所述样本图像为包含文本的图像, 所述样本图 像对应于一个初始标题文本标签; 样本图像特征获取模块, 用于获取所述样本图像对应的样本文本特征和样本图像视觉 特征; 样本图像特征输入模块, 用于将所述样本文本特征和所述样本图像视觉特征输入至待 训练标题文本提取模型; 所述待训练标题文本提取模型包括: 编码层和预测层; 图像融合特征生成模块, 用于调用所述编码层对所述样本文本特征和所述样本图像视 觉特征进行融合处 理, 生成图像融合特 征; 预测标题标签获取模块, 用于调用所述预测层对所述图像融合特征进行预测 处理, 得 到预测标题文本标签; 损失值计算模块, 用于基于所述初始标题文本标签和所述预测标题文本标签, 计算得 到所述待训练标题文本提取模型对应的损失值; 目标标题提取模型获取模块, 用于在所述损 失值处于预设范围内的情况下, 将训练后 的待训练标题文本提取模型作为所述目标 标题文本提取模型。 9.根据权利要求8所述的装置, 其特征在于, 所述预测层包括: 第一标题预测层、 第二标 题预测层和文本顺序预测层, 所述预测标题标签获取模块包括: 第一预测标签生成单元, 用于调用所述第 一标题预测层对所述图像融合特征进行预测 处理, 生成用于预测图像内是否包 含编辑标题文本的第一预测标签;权 利 要 求 书 2/3 页 3 CN 114842488 A 3

PDF文档 专利 图像标题文本确定方法、装置、电子设备及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 图像标题文本确定方法、装置、电子设备及存储介质 第 1 页 专利 图像标题文本确定方法、装置、电子设备及存储介质 第 2 页 专利 图像标题文本确定方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。