专利 图像处理方法、装置、可读存储介质及电子设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210072765.0 (22)申请日 2022.01.21 (71)申请人北京有竹居网络技术有限公司地址 101299 北京市平谷区林荫北街13号信息大厦802室 (72)发明人毛晓飞　黄灿　 (74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙) 11447 代理人贾会玲 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/10(2022.01) G06V 30/148(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01)G06K 9/62(2022.01) (54)发明名称图像处理方法、装置、可读存储介质及电子设备 (57)摘要本公开涉及一种图像处理方法、装置、可读存储介质及电子设备。方法包括：从目标图像中提取文字行区域；针对每一文字行区域，对该文字行区域进行切分，得到该文字行区域对应的至少一个单字符图像；将该文字行区域对应的至少一个单字符图像输入到预先训练好的字符识别模型中，得到该文字行区域对应的识别文本。由于是根据文字行区域对应的各单字符图像进行文本识别的，因此，可以避免文字行区域中字符空隙对文本识别结果的影响，从而可以提升文本识别的准确度。另外，同时根据文字行区域对应的各单字符图像进行文本识别，而非是对每一单字符图像分别进行识别，从而能够捕捉到文字行区域中相邻字符之间的关联特征，从而进一步提升文本识别的准确度。权利要求书2页说明书12页附图4页 CN 114429628 A 2022.05.03 CN 114429628 A 1.一种图像处理方法，其特征在于，包括：从目标图像中提取文字行区域；针对每一所述文字行区域，对该文字行区域进行切分，得到该文字行区域对应的至少一个单字符图像；将该文字行区域对应的所述至少一个单字符图像输入到预先训练好的字符识别模型中，得到该文字行区域对应的识别文本。 2.根据权利要求1所述的方法，其特征在于，所述对该文字行区域进行切分，得到该文字行区域对应的至少一个单字符图像，包括：将该文字行区域输入到预先训练好的特征提取模型中，得到用于表征该文字行区域中各像素列是否包含字符的目标序列，其中，所述目标序列的长度等于该文字行区域包含的像素列的个数；根据所述目标序列，对该文字行区域进行切分，得到该文字行区域对应的至少一个单字符图像。 3.根据权利要求2所述的方法，其特征在于，所述特征提取模型包括依次连接的特征提取模块、第一编码模块、第一全连接层以及后处理模块；其中，所述特征提取模块，用于对该文字行区域进行特征提取，得到该文字行区域对应的第一特征序列；所述第一编码模块，用于对所述第一特征序列进行编码，得到第一编码序列；所述第一全连接层，用于根据所述第一编码序列，生成用于表征该文字行区域中各字符的位置信息的第二特征序列；所述后处理模块，用于对所述第二特征序列进行归一化，并将归一化后所得的第二特征序列的长度调整为目标长度，得到用于表征该文字行区域中各像素列是否包含字符的目标序列，其中，所述目标长度等于该文字行区域包含的像素列的个数。 4.根据权利要求2所述的方法，其特征在于，所述特征提取模型通过如下方式训练得到：获取样本文字行区域和用于表征所述样本文字行区域中各像素列是否包含字符的标注序列；将所述样本文字行区域输入到所述特征提取模型中，得到用于表征所述样本文字行区域中各像素列是否包含字符的训练序列；根据所述训练序列和所述标注序列，确定目标损失；根据所述目标损失对所述特征提取模型进行参数更新，并在所述目标损失小于或等于预设阈值时结束训练，以得到所述特征提取模型。 5.根据权利要求4所述的方法，其特征在于，所述根据所述训练序列和所述标注序列，确定目标损失，包括：根据所述训练序列和所述标注序列，基于 CTC损失函数确定目标损失。 6.根据权利要求2所述的方法，其特征在于，所述目标序列为0‑1序列，其中， 1表示该文字行区域中与其对应的像素列包含字符， 0表示该文字行区域中与其对应的像素列不包含字符；所述根据所述目标序列，对该文字行区域进行切分，得到该文字行区域对应的至少一个单字符图像，包括：权　利　要　求　书 1/2 页 2 CN 114429628 A 2将该文字行区域中、与所述目标序列中连续1对应的像素列确定为单字符区域；将每一所述单字符区域从所述文字行区域中切分出来，得到该文字行区域对应的至少一个单字符图像。 7.根据权利要求1 ‑6中任一项所述的方法，其特征在于，所述字符识别模型包括依次连接的预处理模块、第二编码模块、解码模块以及第二全连接层；其中，所述预处理模块，用于针对该文字行区域对应的所述至少一个单字符图像中的每一所述单字符图像，将该单字符图像归一化为预设尺寸的图像，并将归一化后所得的单字符图像拉直成预设长度的一维行向量，之后，将每一所述单字符图像对应的所述一维向量组成多维矩阵；所述第二编码模块，用于对所述多维矩阵进行编码，得到第二编码序列；所述解码模块，用于根据所述第二编码序列，生成每一所述单字符图像对应的特征向量；所述第二全连接层，用于根据每一所述特征向量，生成该文字行区域对应的识别文本。 8.一种图像处理装置，其特征在于，包括：提取模块，用于从目标图像中提取文字行区域；切分模块，用于针对所述提取模块提取到的每一所述文字行区域，对该文字行区域进行切分，得到该文字行区域对应的至少一个单字符图像；识别模块，用于将所述切分模块切分得到的该文字行区域对应的所述至少一个单字符图像输入到预先训练好的字符识别模型中，得到该文字行区域对应的识别文本。 9.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1 ‑7中任一项所述方法的步骤。 10.一种电子设备，其特征在于，包括：存储装置，其上存储有计算机程序；处理装置，用于执行所述存储装置中的所述计算机程序，以实现权利要求1 ‑7中任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114429628 A 3

专利 图像处理方法、装置、可读存储介质及电子设备

专利图像处理方法、装置、可读存储介质及电子设备