专利 图片处理方法、装置、计算机设备、介质及产品

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210378070.5 (22)申请日 2022.04.12 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人曹润东　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师陈梅君 (51)Int.Cl. G06V 30/41(2022.01) G06V 30/244(2022.01) G06V 30/18(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称图片处理方法、装置、计算机设备、介质及产品 (57)摘要本申请提出一种图片处理方法、装置、计算机设备、介质及产品。该方法包括：获取待处理图片，待处理图片中包括文本行，文本行中包含至少一个文字；对待处理图片进行图像识别处理，得到待处理图片的图片特征，图片特征用于反映待处理图片中的文字在文本行中所对应的文字属性；获取属性识别模型，属性识别模型中包含至少两个分支网络，每个分支网络用于从一个维度对文字属性进行识别分析；调用属性识别模型对图片特征进行多维度识别分析，得到待处理图片中每个文字的多维度属性识别结果。本申请可以识别出图片中文字的多维度的文字属性。权利要求书4页说明书25页附图10页 CN 115131800 A 2022.09.30 CN 115131800 A 1.一种图片处理方法，其特征在于，包括：获取待处理图片，所述待处理图片中包括文本行，所述文本行中包含至少一个文字；对所述待处理图片进行图像识别处理，得到所述待处理图片的图片特征，所述图片特征用于反映所述待处理图片中的文字在所述文本行中所对应的文字属性；获取属性识别模型，所述属性识别模型中包含至少两个分支网络，每个分支网络用于从一个维度对文字属性进行识别分析；调用所述属性识别模型对所述图片特征进行多维度识别分析，得到所述待处理图片中每个文字的多维度属性识别结果。 2.如权利要求1所述的方法，其特征在于，所述属性识别模型中包含第一分支网络和第二分支网络，所述第一分支网络用于对文字的字体类型进行识别分析，所述第二分支网络用于对文字的字体颜色进行识别分析；所述多维度属性识别结果包括类型属性维度的字体类型和颜色属性维度的字体颜色；所述调用所述属性识别模型对所述图片特征进行多维度识别分析，得到所述待处理图片中每个文字的多维度属性识别结果，包括：调用所述属性识别模型中的所述第一分支网络对所述图片特征进行识别分析，得到所述待处理图片对应的字体类型字符串；以及，调用所述属性识别模型中的所述第二分支网络对所述图片特征进行识别分析，得到所述待处理图片对应的字体颜色字符串；根据所述字体类型字符串和所述字体颜色字符串，确定所述待处理图片中每个文字的多维度属性识别结果。 3.如权利要求2所述的方法，其特征在于，所述第一分支网络包括字体类型全连接层和字体类型解码层；所述调用所述属性识别模型中的所述第一分支网络对所述图片特征进行识别分析，得到所述待处理图片对应的字体类型字符串，包括：调用所述第一分支网络中的所述字体类型全连接层对所述图片特征进行识别分析，得到所述待处理图片对应的字体类型识别概率矩阵；调用所述第一分支网络中的所述字体类型解码层对所述字体类型识别概率矩阵进行解码处理，得到所述待处理图片对应的字体类型字符串。 4.如权利要求3所述的方法，其特征在于，所述字体类型全连接层的输出尺寸为m， m用于指示所述字体类型全连接层支持识别的字体类型的数量；所述字体类型识别概率矩阵的尺寸为m×k， k用于指示所述待处理图片中所包括的文字数量， m、 k均为正整数；所述调用所述第一分支网络中的所述字体类型解码层对所述字体类型识别概率矩阵进行解码处理，得到所述待处理图片对应的字体类型字符串，包括：调用最大概率函数对所述字体类型识别概率矩阵进行处理，确定出k个文字中各个文字对应的字体类型最大识别概率，其中，第i个文字对应的字体类型最大识别概率是指第i 列所包括的m个字体类型识别概率中的最大值， i 为正整数且i≤k；调用所述第一分支网络中的所述字体类型解码层对k个字体类型最大识别概率进行解码处理，得到所述待处理图片对应的字体类型字符串。 5.如权利要求2所述的方法，其特征在于，所述第二分支网络包括字体颜色全连接层和权　利　要　求　书 1/4 页 2 CN 115131800 A 2字体颜色解码层；所述调用所述属性识别模型中的所述第二分支网络对所述图片特征进行识别分析，得到所述待处理图片对应的字体颜色字符串，包括：调用所述第二分支网络中的所述字体颜色全连接层对所述图片特征进行识别分析，得到所述待处理图片对应的字体颜色识别概率矩阵；调用所述第二分支网络中的所述字体颜色解码层对所述字体颜色识别概率矩阵进行解码处理，得到所述待处理图片对应的字体颜色字符串。 6.如权利要求5所述的方法，其特征在于，所述字体颜色全连接层的输出尺寸为n， m用于指示所述字体颜色全连接层支持识别的字体颜色的数量；所述字体颜色识别概率矩阵的尺寸为n×k， k用于指示所述待处理图片中所包括的文字数量， n、 k均为正整数；所述调用所述第二分支网络中的所述字体颜色解码层对所述字体颜色识别概率矩阵进行解码处理，得到所述待处理图片对应的字体颜色字符串，包括：调用最大概率函数对所述字体颜色识别概率矩阵进行处理，确定出k个文字中各个文字对应的字体颜色最大识别概率，其中，第j个文字对应的字体颜色最大识别概率是指第j 列所包括的n个字体颜色识别概率中的最大值， j为正整数且j≤k；调用所述第二分支网络中的所述字体颜色解码层对k个字体颜色最大识别概率进行解码处理，得到所述待处理图片对应的字体颜色字符串。 7.如权利要求2所述的方法，其特征在于，所述多维度属性识别结果包括字体类型和字体颜色；所述待处理图片包括k个文字，第i个文字用于表示所述k个文字中的任一个， i、 k均为正整数且i≤k；所述根据所述字体类型字符串和所述字体颜色字符串，确定所述待处理图片中每个文字的多维度属性识别结果，包括：根据字体类型字典集，对所述字体类型字符串进行映射查找，得到所述待处理图片中的第i个文字的字体类型；根据字体颜色字典集，对所述字体颜色字符串进行映射查找，得到所述待处理图片中的第i个文字的字体颜色。 8.如权利要求7 所述的方法，其特征在于，所述方法还包括：根据所述k个文字中每个文字的字体类型和字体颜色，按照预设输出方式组合输出所述待处理图片中每个文字的多维度属性识别结果；其中，所述预设输出方式包括以下任一种：先输出第i个文字的字体类型和字体颜色，再输出第i+1个文字的字体类型和字体颜色；或者，先输出k个文字中每个文字的字体类型，再输出k个文字中每个文字的字体颜色；或者，先输出k个文字中每个文字的字体颜色，再输出k个文字中每个文字的字体类型；或者，根据k个文字中每个文字的字体类型和字体颜色，对相同的字体类型和/或字体颜色进行合并处理，并输出合并后的字体类型和字体颜色。 9.如权利要求1 ‑8任一项所述的方法，其特征在于，所述方法还包括：获取样本图片集，所述样本图片集包括p个样本图片，每个样本图片携带有至少两个维度的属性标签，任一样本图片包括样本文本行，所述样本文本行中包含至少一个样本文字， p为正整数；对所述样本图片集中的第q个样本图片进行图像识别处理，得到所述第q个样本图片的权　利　要　求　书 2/4 页 3 CN 115131800 A 3

专利 图片处理方法、装置、计算机设备、介质及产品

专利图片处理方法、装置、计算机设备、介质及产品