(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210378070.5
(22)申请日 2022.04.12
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 曹润东
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 陈梅君
(51)Int.Cl.
G06V 30/41(2022.01)
G06V 30/244(2022.01)
G06V 30/18(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
图片处理方法、 装置、 计算机设备、 介质及产
品
(57)摘要
本申请提出一种图片处理方法、 装置、 计算
机设备、 介质及产品。 该方法包括: 获取待处理图
片, 待处理图片中包括文本行, 文本行中包含至
少一个文字; 对待处理图片进行图像识别处理,
得到待处理图片的图片特征, 图片特征用于反映
待处理图片中的文字在文本行中所对应的文字
属性; 获取属性识别模型, 属性识别模型中包含
至少两个分支网络, 每个分支网络用于从一个维
度对文字属性进行识别分析; 调用属性识别模型
对图片特征进行多维度识别分析, 得到待处理图
片中每个文字的多维度属性识别结果。 本申请可
以识别出图片中文字的多维度的文字属性。
权利要求书4页 说明书25页 附图10页
CN 115131800 A
2022.09.30
CN 115131800 A
1.一种图片处 理方法, 其特 征在于, 包括:
获取待处 理图片, 所述待处 理图片中包括文本行, 所述文本行中包 含至少一个文字;
对所述待处理图片进行图像识别处理, 得到所述待处理图片的图片特征, 所述图片特
征用于反映所述待处 理图片中的文字在所述文本行中所对应的文字属性;
获取属性识别模型, 所述属性识别模型中包含至少两个分支网络, 每个分支网络用于
从一个维度对文字属性进行识别分析;
调用所述属性识别模型对所述图片特征进行多维度识别分析, 得到所述待处理图片中
每个文字的多维度属性识别结果。
2.如权利要求1所述的方法, 其特征在于, 所述属性识别模型中包含第 一分支网络和第
二分支网络, 所述第一分支网络用于对文字的字体类型进行识别 分析, 所述第二分支网络
用于对文字的字体颜色进 行识别分析; 所述多维度属性识别结果包括类型属性维度的字体
类型和颜色属性维度的字体颜色;
所述调用所述属性识别模型对所述图片特征进行多维度识别分析, 得到所述待处理图
片中每个文字的多维度属性识别结果, 包括:
调用所述属性识别模型中的所述第 一分支网络对所述图片特征进行识别分析, 得到所
述待处理图片对应的字体 类型字符串; 以及,
调用所述属性识别模型中的所述第 二分支网络对所述图片特征进行识别分析, 得到所
述待处理图片对应的字体颜色字符串;
根据所述字体类型字符串和所述字体颜色字符串, 确定所述待处理图片中每个文字的
多维度属性识别结果。
3.如权利要求2所述的方法, 其特征在于, 所述第 一分支网络包括字体类型全连接层和
字体类型解码层;
所述调用所述属性识别模型中的所述第 一分支网络对所述图片特征进行识别分析, 得
到所述待处 理图片对应的字体 类型字符串, 包括:
调用所述第 一分支网络 中的所述字体类型全连接层对所述图片特征进行识别分析, 得
到所述待处 理图片对应的字体 类型识别概 率矩阵;
调用所述第一分支网络中的所述字体类型解码层对所述字体类型识别概率矩阵进行
解码处理, 得到所述待处 理图片对应的字体 类型字符串。
4.如权利要求3所述的方法, 其特征在于, 所述字体类型全连接层的输出尺寸为m, m用
于指示所述字体类型全连接层支持识别的字体类型的数量; 所述字体类型识别概率矩阵的
尺寸为m×k, k用于指示所述待处 理图片中所包括的文字数量, m、 k均为 正整数;
所述调用所述第一分支网络中的所述字体类型解码层对所述字体类型识别概率矩阵
进行解码处 理, 得到所述待处 理图片对应的字体 类型字符串, 包括:
调用最大概率函数对所述字体类型识别概率矩阵进行处理, 确定出k个文字中各个文
字对应的字体类型最大识别概率, 其中, 第i个文字对应的字体类型最大识别概率是指第i
列所包括的m个字体 类型识别概 率中的最大值, i 为正整数且i≤k;
调用所述第 一分支网络 中的所述字体类型解码层对k个字体类型最大识别概率进行解
码处理, 得到所述待处 理图片对应的字体 类型字符串。
5.如权利要求2所述的方法, 其特征在于, 所述第 二分支网络包括字体颜色全连接层和权 利 要 求 书 1/4 页
2
CN 115131800 A
2字体颜色解码层;
所述调用所述属性识别模型中的所述第 二分支网络对所述图片特征进行识别分析, 得
到所述待处 理图片对应的字体颜色字符串, 包括:
调用所述第 二分支网络 中的所述字体颜色全连接层对所述图片特征进行识别分析, 得
到所述待处 理图片对应的字体颜色识别概 率矩阵;
调用所述第二分支网络中的所述字体颜色解码层对所述字体颜色识别概率矩阵进行
解码处理, 得到所述待处 理图片对应的字体颜色字符串。
6.如权利要求5所述的方法, 其特征在于, 所述字体颜色全连接层的输出尺寸为n, m用
于指示所述字体颜色全连接层支持识别的字体颜色的数量; 所述字体颜色识别概率矩阵的
尺寸为n×k, k用于指示所述待处 理图片中所包括的文字数量, n、 k均为 正整数;
所述调用所述第二分支网络中的所述字体颜色解码层对所述字体颜色识别概率矩阵
进行解码处 理, 得到所述待处 理图片对应的字体颜色字符串, 包括:
调用最大概率函数对所述字体颜色识别概率矩阵进行处理, 确定出k个文字中各个文
字对应的字体颜色最大识别概率, 其中, 第j个文字对应的字体颜色最大识别概率是指第j
列所包括的n个字体颜色识别概 率中的最大值, j为 正整数且j≤k;
调用所述第 二分支网络 中的所述字体颜色解码层对k个字体颜色最大识别概率进行解
码处理, 得到所述待处 理图片对应的字体颜色字符串。
7.如权利要求2所述的方法, 其特征在于, 所述多维度属性识别结果包括字体类型和字
体颜色; 所述待处理图片包括k个文字, 第i个文字用于表示所述k个文字中的任一个, i、 k均
为正整数且i≤k;
所述根据 所述字体类型字符串和所述字体颜色字符串, 确定所述待处理图片中每个文
字的多维度属性识别结果, 包括:
根据字体类型字典集, 对所述字体类型字符串进行映射查找, 得到所述待处理图片中
的第i个文字的字体 类型;
根据字体颜色字典集, 对所述字体颜色字符串进行映射查找, 得到所述待处理图片中
的第i个文字的字体颜色。
8.如权利要求7 所述的方法, 其特 征在于, 所述方法还 包括:
根据所述k个文字中每个文字的字体类型和字体颜色, 按照预设输出方式组合输出所
述待处理图片中每 个文字的多维度属性识别结果;
其中, 所述预设输出方式包括以下任一种: 先输出第i个文字的字体类型和字体颜色,
再输出第i+1个文字的字体类型和字体颜色; 或者, 先输出k个文字中每个文字的字体类型,
再输出k个文字中每个文字的字体颜色; 或者, 先输出k个文字中每个文字的字体颜色, 再输
出k个文字中每个文字的字体类型; 或者, 根据k个文字中每个文字的字体类型和字体颜色,
对相同的字体 类型和/或字体颜色进行合并处 理, 并输出合并后的字体 类型和字体颜色。
9.如权利要求1 ‑8任一项所述的方法, 其特 征在于, 所述方法还 包括:
获取样本图片集, 所述样本图片集包括p个样本图片, 每个样本图片携带有至少两个维
度的属性标签, 任一样本图片包括样本文本行, 所述样本文本行中包含至少一个样本文字,
p为正整数;
对所述样本图片集中的第q个样本图片进行图像识别处理, 得到所述第q个样本图片的权 利 要 求 书 2/4 页
3
CN 115131800 A
3
专利 图片处理方法、装置、计算机设备、介质及产品
文档预览
中文文档
40 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共40页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:36:46上传分享