安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210393386.1 (22)申请日 2022.04.14 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518000 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 郭双双 龚星  (74)专利代理 机构 深圳市联鼎知识产权代理有 限公司 4 4232 专利代理师 王晗 (51)Int.Cl. G06V 20/62(2022.01) G06V 10/22(2022.01) G06V 10/422(2022.01) G06V 10/80(2022.01) G06V 10/74(2022.01)G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 图像识别方法、 装置、 电子设备和可读介质 (57)摘要 本申请提供一种图像识别方法、 装置、 电子 设备和可读介质。 该方法包括: 获取包含待识别 文本的待识别图像, 待识别文本包括多个字符; 对待识别图像进行图像识别, 得到每个字符的字 符位置结果、 多个字符的字 符连通结果及每个字 符的字符识别结果, 字 符位置结果用于指示字 符 在待识别图像中的位置, 字 符连通结果用于指示 各个字符与相邻字符之间的邻接关系; 根据各个 字符的字符位置结果, 对待识别图像中的各个字 符分别进行字符识别, 得到各个字符的字符识别 结果; 根据字符识别结果和字 符连通结果对多个 字符进行拼接, 得到待识别文本的文本识别结 果。 该方法能够提升识别结果的准确性。 权利要求书3页 说明书19页 附图5页 CN 115131777 A 2022.09.30 CN 115131777 A 1.一种图像识别方法, 其特 征在于, 包括: 获取包含待识别文本的待识别图像, 所述待识别文本包括多个字符; 对所述待识别图像进行图像识别, 得到每个字符的字符位置结果、 所述多个字符的字 符连通结果及每个字符的字符识别结果, 所述字符位置结果用于指示字符在所述待识别图 像中的位置, 所述字符连通结果用于指示各个字符与相邻字符 之间的邻接关系; 根据所述字符识别结果和所述字符连通结果对所述多个字符进行拼接, 得到所述待识 别文本的文本识别结果。 2.根据权利要求1所述的方法, 其特征在于, 所述字符位置结果包括各个字符的中心点 位置, 所述字符连通结果包括用于表示字符之间邻接关系的字符邻接矩阵; 所述对所述待 识别图像进行图像识别, 得到每个字符的字符位置结果、 所述多个字符的字符连通结果及 每个字符的字符识别结果, 包括: 根据多个尺度对所述待识别图像进行 下采样, 得到所述多个尺度下的图像特 征; 对于所述多个尺度下的图像特征进行特征融合, 得到所述多个尺度下的特征融合结 果; 根据所述多个尺度下的特征融合结果检测各个字符的位置, 得到各个字符的中心点位 置; 根据所述多个尺度下的特征融合结果和各个字符的中心点位置分析各个字符的邻接 关系, 得到各个字符 之间的字符邻接矩阵; 根据各个字符的所述字符位置结果, 对所述待识别图像中的各个字符分别进行字符识 别, 得到各个字符的字符识别结果。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述多个尺度下的特征融合结果 检测各个字符的位置, 得到各个字符的中心点 位置, 包括: 对所述多尺度特 征信息进行 卷积处理, 得到卷积结果; 根据所述卷积结果进行中心特征预测, 得到中心点特征图, 所述中心点特征图中的各 个特征值表示对应 像素点为字符中心点的概 率; 根据所述中心点特 征图, 确定各个字符的中心点 位置。 4.根据权利要求3所述的方法, 其特征在于, 在对所述多尺度特征信息进行卷积处理, 得到卷积结果之后, 所述方法还 包括: 根据所述卷积结果进行顶点距离预测, 得到各个字符的顶点特征图, 所述顶点特征图 中的各个特征值表示所述待识别图像中对应像素点与所述字符的边框的各个顶点之间的 距离; 根据所述顶点特 征图, 确定各个字符的边框位置 。 5.根据权利要求4所述的方法, 其特征在于, 在对所述多尺度特征信息进行卷积处理, 得到卷积结果之后, 所述方法还 包括: 根据所述卷积结果进行偏移预测, 得到偏移特征图, 所述偏移特征图中的各个特征值 表示所述待识别图像中对应 像素点的偏移量, 所述偏移量用于调整所述 边框位置; 根据所述偏移量对所述各个字符的边框位置进行调整。 6.根据权利要求2所述的方法, 其特征在于, 所述根据所述多个尺度下的特征融合结果 和各个字符的中心点位置分析各个字符的邻接关系, 得到各个字符之间的字符邻接矩阵,权 利 要 求 书 1/3 页 2 CN 115131777 A 2包括: 根据多个尺度 下的特征融合结果, 计算各个字符在所述待识别图像中的旋转角度和字 符尺度; 根据各个字符的中心点位置以及各个字符的旋转角度和字符尺度, 确定各个字符的字 符位置特 征; 根据各个字符的中心点 位置, 计算每 个字符与其 他字符的相似度; 根据各个字符的字符位置特征和每个字符与其他字符的相似度, 构建每个字符的连接 图; 根据每个字符的连接图, 确定各个字符 之间的邻接关系; 根据各个字符 之间的邻接关系, 构建所述字符邻接矩阵。 7.根据权利要求6所述的方法, 其特征在于, 所述根据每个字符的连接 图, 确定各个字 符之间的邻接关系, 包括: 对于每个字符的连接 图, 以字符对应的节点为中心点进行图卷积操作, 得到 图卷积结 果; 根据所述图卷积结果中节点之间的连接结果, 确定各个字符 之间的邻接关系。 8.根据权利要求2所述的方法, 其特征在于, 所述根据各个字符的所述字符位置结果, 对所述待识别图像中的各个字符分别进行字符识别, 得到各个字符的字符识别结果, 包括: 根据各个字符的所述字符位置结果, 从所述待识别图像中截取各个字符对应的字符图 像; 将各个字符对应的字符图像分别输入到字符分类模型进行预测, 得到每个字符对应的 字符分类结果, 所述字符分类结果中包括字符对应的至少一个结果字符。 9.根据权利要求8所述的方法, 其特征在于, 所述将各个字符对应的字符图像分别输入 到字符分类模型进行 预测, 得到每 个字符对应的字符分类结果之前, 所述方法还 包括: 通过字符训练数据, 对待训练字符分类模型进行训练, 得到训练分类结果; 根据训练分类结果进行三元组损失函数和交叉熵损失函数联合计算, 得到训练损失结 果; 根据所述训练损 失结果, 对所述待训练字符分类模型的模型参数进行调整, 得到所述 字符分类模型。 10.根据权利要求1所述的方法, 其特征在于, 所述根据所述字符识别结果和所述字符 连通结果对所述多个字符进行拼接, 得到所述待识别文本的文本识别结果, 包括: 根据所述字符连通结果中的邻接关系, 确定各个字符的字符序列; 按照所述字符序列对所述字符识别结果进行排列拼接, 得到所述待识别文本的文本识 别结果。 11.根据权利要求10所述的方法, 其特征在于, 所述字符序列中的每个序列位置对应于 一个候选字符集合; 所述按照所述字符序列对所述字符识别结果进行排列拼接, 得到所述 待识别文本的文本识别结果, 包括: 对于每个字符, 根据字符在所述字符序列中的序列位置, 确定字符对应的候选字符集 合; 根据每个字符的所述字符分类结果与所确定的候选字符集合的交集, 确定每个字符的权 利 要 求 书 2/3 页 3 CN 115131777 A 3

.PDF文档 专利 图像识别方法、装置、电子设备和可读介质

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 图像识别方法、装置、电子设备和可读介质 第 1 页 专利 图像识别方法、装置、电子设备和可读介质 第 2 页 专利 图像识别方法、装置、电子设备和可读介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:36:42上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。