安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210467945.9 (22)申请日 2022.04.29 (71)申请人 北京三快在线科技有限公司 地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人 刘鎏 周鑫 左凯 曹佐 张弓 (74)专利代理 机构 北京润泽恒知识产权代理有 限公司 1 1319 专利代理师 任亚娟 (51)Int.Cl. G06V 30/412(2022.01) G06V 30/413(2022.01) G06K 9/62(2022.01) G06V 10/44(2022.01) G06V 10/774(2022.01)G06V 10/80(2022.01) (54)发明名称 图像标题文本确定方法、 装置、 电子设备及 存储介质 (57)摘要 本公开的实施例提供了一种图像标题文本 确定方法、 装置、 电子设备及存储介质。 所述方法 包括: 获取目标图像对应的文本特征和图像视觉 特征; 将所述文本特征和所述图像视觉特征输入 至目标标题文本提取模型; 基于所述目标标题文 本提取模型对所述文本特征和所述图像视觉特 征进行处理, 确定所述目标图像对应的目标图像 标题文本。 本公开的实施例通过充分利用图像不 同粒度特征及文本特征跨模态信息交互, 对图像 是否有编辑标题判断且准确提取与排序图中编 辑标题, 对图像优选在质量和相关性上带来一定 的提升。 权利要求书3页 说明书12页 附图3页 CN 114842488 A 2022.08.02 CN 114842488 A 1.一种图像标题文本确定方法, 其特 征在于, 包括: 获取目标图像对应的文本特 征和图像视 觉特征; 将所述文本特 征和所述图像视 觉特征输入至目标 标题文本提取模型; 基于所述目标标题文本提取模型对所述文本特征和所述图像视觉特征进行处理, 确定 所述目标图像对应的目标图像标题文本 。 2.根据权利要求1所述的方法, 其特征在于, 所述获取目标图像对应的文本特征和图像 视觉特征, 包括: 基于字符识别技 术, 识别所述目标图像中的图像文本; 基于所述图像文本在所述目标图像内的区域, 对所述目标图像进行裁剪, 生成文本区 域图像和非文本区域图像; 基于预训练特征提取模型分别对所述文本区域图像和所述非文本区域图像进行特征 提取处理, 得到所述文本特 征和所述图像视 觉特征。 3.根据权利要求1所述的方法, 其特征在于, 在所述将所述文本特征和所述图像视觉特 征输入至目标 标题文本提取模型之前, 还 包括: 获取样本 图像; 所述样本 图像为包含文本的图像, 所述样本 图像对应于一个初始标题 文本标签; 获取所述样本图像对应的样本文本特 征和样本图像视 觉特征; 将所述样本文本特征和所述样本图像视觉特征输入至待训练标题文本提取模型; 所述 待训练标题文本提取模型包括: 编码层和预测层; 调用所述编码层对所述样本文本特征和所述样本图像视觉特征进行融合处理, 生成图 像融合特 征; 调用所述预测层对所述图像融合特 征进行预测处理, 得到预测标题文本标签; 基于所述初始标题文本标签和所述预测标题文本标签, 计算得到所述待训练标题文本 提取模型对应的损失值; 在所述损失值处于预设范围内的情况下, 将训练后的待训练标题文本提取模型作为所 述目标标题文本提取模型。 4.根据权利要求3所述的方法, 其特征在于, 所述预测层包括: 第一标题预测层、 第二标 题预测层和文本顺序预测层, 所述调用所述预测层对所述图像融合特征进行预测 处理, 得到预测标题文本标签, 包 括: 调用所述第 一标题预测层对所述图像融合特征进行预测处理, 生成用于预测图像 内是 否包含编辑标题文本的第一预测标签; 调用所述第 二标题预测层对所述图像融合特征进行预测处理, 生成用于预测文本是否 构成用户编辑标题的第二预测标签; 调用所述文本顺序预测层对所述图像融合特征进行预测处理, 生成用于预测文本在用 户编辑标题文本的顺序的第三预测标签; 根据所述第一预测标签、 所述第二预测标签和所述第三预测标签, 确定所述预测标题 文本标签。 5.根据权利要求1所述的方法, 其特征在于, 所述目标标题文本提取模型包括: 编码层权 利 要 求 书 1/3 页 2 CN 114842488 A 2和预测层, 所述基于所述目标标题文本提取模型对所述文本特征和所述图像视觉特征进行处理, 确定所述目标图像对应的目标图像标题文本, 包括: 调用所述编码层对所述文本特征和所述图像视觉特征进行融合处理, 生成 目标图像融 合特征; 调用所述预测层对所述目标图像融合特征进行标题预测处理, 得到所述目标图像对应 的目标图像标题文本 。 6.一种图像标题文本确定装置, 其特 征在于, 包括: 图像特征获取模块, 用于获取目标图像对应的文本特 征和图像视 觉特征; 图像特征输入模块, 用于将所述文本特征和所述图像视觉特征输入至目标标题文本提 取模型; 图像标题确定模块, 用于基于所述目标标题文本提取模型对所述文本特征和所述图像 视觉特征进行处 理, 确定所述目标图像对应的目标图像标题文本 。 7.根据权利要求6所述的装置, 其特 征在于, 所述图像特 征获取模块包括: 图像文本识别单 元, 用于基于 字符识别技 术, 识别所述目标图像中的图像文本; 区域图像生成单元, 用于基于所述图像文本在所述目标图像内的区域, 对所述目标图 像进行裁 剪, 生成文本区域图像和非文本区域图像; 图像特征获取单元, 用于基于预训练特征提取模型分别对所述文本区域图像和所述非 文本区域图像进行 特征提取处 理, 得到所述文本特 征和所述图像视 觉特征。 8.根据权利要求6所述的装置, 其特 征在于, 所述装置还 包括: 样本图像获取模块, 用于获取样本图像; 所述样本图像为包含文本的图像, 所述样本图 像对应于一个初始标题文本标签; 样本图像特征获取模块, 用于获取所述样本图像对应的样本文本特征和样本图像视觉 特征; 样本图像特征输入模块, 用于将所述样本文本特征和所述样本图像视觉特征输入至待 训练标题文本提取模型; 所述待训练标题文本提取模型包括: 编码层和预测层; 图像融合特征生成模块, 用于调用所述编码层对所述样本文本特征和所述样本图像视 觉特征进行融合处 理, 生成图像融合特 征; 预测标题标签获取模块, 用于调用所述预测层对所述图像融合特征进行预测 处理, 得 到预测标题文本标签; 损失值计算模块, 用于基于所述初始标题文本标签和所述预测标题文本标签, 计算得 到所述待训练标题文本提取模型对应的损失值; 目标标题提取模型获取模块, 用于在所述损 失值处于预设范围内的情况下, 将训练后 的待训练标题文本提取模型作为所述目标 标题文本提取模型。 9.根据权利要求8所述的装置, 其特征在于, 所述预测层包括: 第一标题预测层、 第二标 题预测层和文本顺序预测层, 所述预测标题标签获取模块包括: 第一预测标签生成单元, 用于调用所述第 一标题预测层对所述图像融合特征进行预测 处理, 生成用于预测图像内是否包 含编辑标题文本的第一预测标签;权 利 要 求 书 2/3 页 3 CN 114842488 A 3
专利 图像标题文本确定方法、装置、电子设备及存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:06:45
上传分享
举报
下载
原文档
(637.2 KB)
分享
友情链接
YD-T 3763.3-2021 研发运营一体化(DevOps)能力成熟度模型 第3部分:持续交付.pdf
GB-T 38633-2020 信息技术 大数据 系统运维和管理功能要求.pdf
JR-T 0231—2021 银行业第三方软件开发工具包(SDK)安全接入指南.pdf
GM-T 0044.1-2016 SM9标识密码算法 第1部分:总则.pdf
MT-T 244.1-2020 煤矿窄轨车辆连接件 连接链.pdf
DB61-T 1497-2021 人间充质干细胞库建设与管理规范 陕西省.pdf
GM-T 0044.4-2016 SM9标识密码算法 第4部分:密钥封装机制和公钥加密算法.pdf
GB-T 29299-2012 半导体激光测距仪通用技术条件.pdf
GB-T 37736-2019信息技术云计算云资源监控通用要求.pdf
GB-T 17713-2022 吸油烟机及其他烹饪烟气吸排装置.pdf
GA-T 913-2019 信息安全技术 数据库安全审计产品安全技术要求.pdf
HJ 91.1-2019 污水监测技术规范.pdf
GB-T 23050-2022 信息化和工业化融合管理体系 供应链数字化管理指南.pdf
GB-T 14982-2008 粘土质耐火泥浆.pdf
DB62-T 1789-2019 地理标志产品 民乐紫皮大蒜 甘肃省.pdf
DB51-T 2738-2020 大熊猫圈养机构宣传教育标准 四川省.pdf
GB-T 17000-2009 全息防伪产品通用技术条件.pdf
DB42-T 1951-2023 桥梁结构健康信息化监测技术规范 湖北省.pdf
NB-T 10178-2019 煤矿在用继电保护装置电气试验规范.pdf
2023中国智驾大模型应用研究报告-2023-10-智能网联.pdf
1
/
19
评价文档
赞助2元 点击下载(637.2 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。