安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210425713.7 (22)申请日 2022.04.21 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 张晓强 黄聚 钦夏孟 章成全 姚锟 (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 专利代理师 单冠飞 (51)Int.Cl. G06V 30/18(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06K 9/62(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 文本识别方法、 装置、 电子设备和存 储介质 (57)摘要 本申请公开了文本识别方法、 装置、 电子设 备和存储介质, 涉及人工智能技术领域, 具体为 深度学习、 图像处理、 计算机视觉技术领域, 可应 用于OCR等场景。 具体方案为: 获取待识别文本图 像; 对待识别文本图像进行特征提取, 以获取待 识别文本图像的图像特征; 根据图像特征和预设 的文本实例分割向量提取待识别文本图像之中 的各文本实例, 并确定各文本实例对应的注意力 特征; 对各文本实例对应的注意力特征进行解 码, 生成各文本实例对应的识别结果。 该方法通 过利用文本实例分割向量, 将文本实例进行对应 和区分, 得到实例级别的注意力特征, 根据实例 级别的注意力特征, 得到实例级别的识别结果, 无需复杂的人工后处理, 提升了自然场景下文本 识别结果的准确性。 权利要求书3页 说明书11页 附图5页 CN 114863437 A 2022.08.05 CN 114863437 A 1.一种文本识别方法, 包括: 获取待识别文本图像; 对所述待识别文本图像进行 特征提取, 以获取 所述待识别文本图像的图像特 征; 根据所述图像特征和预设的文本实例分割向量提取所述待识别文本图像之中的各文 本实例, 并确定所述各文本实例对应的注意力特 征; 对所述各文本实例对应的注意力特征进行解码, 以生成所述各文本实例对应的识别结 果。 2.如权利要求1所述的方法, 其中, 所述对所述各文本实例对应的注意力特征进行解 码, 以生成所述各文本实例对应的识别结果, 包括: 将所述各文本实例对应的注意力特征分别 输入到检测网络、 识别网络和分类网络之中 的一个或多个进行解码, 以生成所述各文本实例对应的识别结果, 其中, 所述识别结果包括 检测结果、 文本识别结果和分类结果之中的一个或多个。 3.如权利要求1所述的方法, 其中, 所述根据 所述图像特征和预设的文本实例分割向量 提取所述待识别文本图像之中的各文本实例, 并确定所述各文本实例对应的注意力特征, 包括: 对所述图像特征和所述文本实例分割向量进行解码, 以提取所述待识别文本图像之中 的所述各文本实例, 并获取 所述各文本实例对应的文本特 征; 对所述图像特征和所述各文本实例对应的文本特征进行融合, 以确定所述各文本实例 对应的注意力特 征。 4.如权利要求3所述的方法, 其中, 所述对所述图像特征和所述文本实例分割向量进行 解码, 以提取所述待识别文本图像之中的所述各文本实例, 并获取所述各文本实例对应的 文本特征, 包括: 将所述文本实例分割向量输入到解码模块中的自注意力层进行解码, 以获取所述文本 实例分割向量对应的中间特 征; 将所述中间特征与 所述图像特征输入到所述解码模块中的交叉注意力层进行解码, 以 提取所述待识别文本图像中的所述各文本实例, 并获取 所述各文本实例对应的文本特 征。 5.如权利要求3所述的方法, 其中, 所述图像特征为多尺度图像特征, 所述对所述图像 特征和所述文本实例分割向量进 行解码, 以提取所述待识别文本图像之中的所述各文本实 例, 并获取 所述各文本实例对应的文本特 征, 包括: 获取所述多尺度图像特 征中尺度小于第一阈值的图像特 征; 对所述小于第 一阈值的图像特征和所述文本实例分割向量进行解码, 以提取所述待识 别文本图像之中的所述各文本实例, 并获取 所述各文本实例对应的文本特 征。 6.如权利要求3所述的方法, 其中, 所述图像特征为多尺度图像特征, 所述对所述图像 特征和所述各文本实例对应的文本特征进 行融合, 以确定所述各文本实例对应的注意力特 征, 包括: 对所述多尺度图像特征中尺度大于第二阈值的图像特征和所述各文本实例对应的文 本特征进 行融合, 以确定所述各文本实例对应的注意力特征, 其中, 所述第二阈值大于所述 第一阈值。 7.一种文本识别装置, 包括:权 利 要 求 书 1/3 页 2 CN 114863437 A 2第一获取模块, 用于获取待识别文本图像; 第二获取模块, 用于对所述待识别文本 图像进行特征提取, 以获取所述待识别文本 图 像的图像特 征; 确定模块, 用于根据 所述图像特征和预设的文本实例分割向量提取所述待识别文本图 像之中的各文本实例, 并确定所述各文本实例对应的注意力特 征; 生成模块, 用于对所述各文本实例对应的注意力特征进行解码, 以生成所述各文本实 例对应的识别结果。 8.如权利要求7 所述的装置, 其中, 所述 生成模块, 用于: 将所述各文本实例对应的注意力特征分别 输入到检测网络、 识别网络和分类网络之中 的一个或多个进行解码, 以生成所述各文本实例对应的识别结果, 其中, 所述识别结果包括 检测结果、 文本识别结果和分类结果之中的一个或多个。 9.如权利要求7 所述的装置, 其中, 所述确定模块, 包括: 获取单元, 用于对所述图像特征和所述文本实例分割向量进行解码, 以提取所述待识 别文本图像之中的所述各文本实例, 并获取 所述各文本实例对应的文本特 征; 融合单元, 用于对所述图像特征和所述各文本实例对应的文本特征进行融合, 以确定 所述各文本实例对应的注意力特 征。 10.如权利要求9所述的装置, 其中, 所述获取 单元, 用于: 将所述文本实例分割向量输入到解码模块中的自注意力层进行解码, 以获取所述文本 实例分割向量对应的中间特 征; 将所述中间特征与 所述图像特征输入到所述解码模块中的交叉注意力层进行解码, 以 提取所述待识别文本图像中的所述各文本实例, 并获取 所述各文本实例对应的文本特 征。 11.如权利要求9所述的装置, 其中, 所述图像特征为多尺度图像特征, 所述获取单元, 用于: 获取所述多尺度图像特 征中尺度小于第一阈值的图像特 征; 对所述小于第 一阈值的图像特征和所述文本实例分割向量进行解码, 以提取所述待识 别文本图像之中的所述各文本实例, 并获取 所述各文本实例对应的文本特 征。 12.如权利要求9所述的装置, 其中, 所述图像特征为多尺度图像特征, 所述融合单元, 用于: 对所述多尺度图像特征中尺度大于第二阈值的图像特征和所述各文本实例对应的文 本特征进 行融合, 以确定所述各文本实例对应的注意力特征, 其中, 所述第二阈值大于所述 第一阈值。 13.一种电子设备, 包括: 至少一个处 理器; 以及 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处 理器执行, 以使所述至少一个处 理器能够执 行权利要求1 ‑6中任一项所述的方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质, 其中, 所述计算机指令用于 使所述计算机执 行根据权利要求1 ‑6中任一项所述的方法。 15.一种计算机程序产品, 包括计算机程序, 所述计算机程序在被处理器执行时实现权权 利 要 求 书 2/3 页 3 CN 114863437 A 3
专利 文本识别方法、装置、电子设备和存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:07:02
上传分享
举报
下载
原文档
(857.8 KB)
分享
友情链接
GM-T 0084-2020 密码模块物理攻击缓解技术指南.pdf
GB-T 31505-2015 信息安全技术 主机型防火墙安全技术要求和测试评价方法.pdf
GB-T 33131-2016 信息安全技术 基于IPSec的IP存储网络安全技术要求.pdf
GB-T 26463-2011 羰基合成脂肪醇.pdf
GB-T 28537-2012 高压开关设备和控制设备中六氟化硫(SF6)的使用和处理.pdf
2022 护网行动专项应急演练方案.pdf
T-ACEF 060—2023 塑料包装替代材料 碳减排量核算准则.pdf
GB-T 41856.1-2022 无损检测 工业内窥镜目视检测 第1部分:方法.pdf
GB-T 37673-2019 煤灰中硅、铝、铁、钙、镁、钠、钾、磷、钛、锰、钡、锶的测定 X射线荧光光谱法.pdf
算力网络安全白皮书 .pdf
GB-T 21063.6-2007 政务信息资源目录体系 第6部分 技术管理要求.pdf
DB2310-T 114-2023 地理标志产品 响水大米 牡丹江市.pdf
中华人民共和国密码法 2020.pdf
GB-T 10595-2017 带式输送机.pdf
GB-T 20274.2-2008 信息安全技术 信息系统安全保障评估框架 第2部分:技术保障.pdf
NB-T 10205-2019 风电功率预测技术规定.pdf
TB-T 3100.1-2017 铁路数字信号电缆 第1部分:一般规定.pdf
T-GDAEPI 01—2019 固定污染源自动监控系统运行服务规范.pdf
GB-T 36548-2018 电化学储能系统接入电网测试规范.pdf
DB3212-T 1122—2022 机关单位视频会议运维管理规范 泰州市.pdf
1
/
20
评价文档
赞助2元 点击下载(857.8 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。