专利 文本识别方法、装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210425713.7 (22)申请日 2022.04.21 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦二层 (72)发明人张晓强　黄聚　钦夏孟　章成全　姚锟　 (74)专利代理机构北京清亦华知识产权代理事务所(普通合伙) 11201 专利代理师单冠飞 (51)Int.Cl. G06V 30/18(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06K 9/62(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称文本识别方法、装置、电子设备和存储介质 (57)摘要本申请公开了文本识别方法、装置、电子设备和存储介质，涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于OCR等场景。具体方案为：获取待识别文本图像；对待识别文本图像进行特征提取，以获取待识别文本图像的图像特征；根据图像特征和预设的文本实例分割向量提取待识别文本图像之中的各文本实例，并确定各文本实例对应的注意力特征；对各文本实例对应的注意力特征进行解码，生成各文本实例对应的识别结果。该方法通过利用文本实例分割向量，将文本实例进行对应和区分，得到实例级别的注意力特征，根据实例级别的注意力特征，得到实例级别的识别结果，无需复杂的人工后处理，提升了自然场景下文本识别结果的准确性。权利要求书3页说明书11页附图5页 CN 114863437 A 2022.08.05 CN 114863437 A 1.一种文本识别方法，包括：获取待识别文本图像；对所述待识别文本图像进行特征提取，以获取所述待识别文本图像的图像特征；根据所述图像特征和预设的文本实例分割向量提取所述待识别文本图像之中的各文本实例，并确定所述各文本实例对应的注意力特征；对所述各文本实例对应的注意力特征进行解码，以生成所述各文本实例对应的识别结果。 2.如权利要求1所述的方法，其中，所述对所述各文本实例对应的注意力特征进行解码，以生成所述各文本实例对应的识别结果，包括：将所述各文本实例对应的注意力特征分别输入到检测网络、识别网络和分类网络之中的一个或多个进行解码，以生成所述各文本实例对应的识别结果，其中，所述识别结果包括检测结果、文本识别结果和分类结果之中的一个或多个。 3.如权利要求1所述的方法，其中，所述根据所述图像特征和预设的文本实例分割向量提取所述待识别文本图像之中的各文本实例，并确定所述各文本实例对应的注意力特征，包括：对所述图像特征和所述文本实例分割向量进行解码，以提取所述待识别文本图像之中的所述各文本实例，并获取所述各文本实例对应的文本特征；对所述图像特征和所述各文本实例对应的文本特征进行融合，以确定所述各文本实例对应的注意力特征。 4.如权利要求3所述的方法，其中，所述对所述图像特征和所述文本实例分割向量进行解码，以提取所述待识别文本图像之中的所述各文本实例，并获取所述各文本实例对应的文本特征，包括：将所述文本实例分割向量输入到解码模块中的自注意力层进行解码，以获取所述文本实例分割向量对应的中间特征；将所述中间特征与所述图像特征输入到所述解码模块中的交叉注意力层进行解码，以提取所述待识别文本图像中的所述各文本实例，并获取所述各文本实例对应的文本特征。 5.如权利要求3所述的方法，其中，所述图像特征为多尺度图像特征，所述对所述图像特征和所述文本实例分割向量进行解码，以提取所述待识别文本图像之中的所述各文本实例，并获取所述各文本实例对应的文本特征，包括：获取所述多尺度图像特征中尺度小于第一阈值的图像特征；对所述小于第一阈值的图像特征和所述文本实例分割向量进行解码，以提取所述待识别文本图像之中的所述各文本实例，并获取所述各文本实例对应的文本特征。 6.如权利要求3所述的方法，其中，所述图像特征为多尺度图像特征，所述对所述图像特征和所述各文本实例对应的文本特征进行融合，以确定所述各文本实例对应的注意力特征，包括：对所述多尺度图像特征中尺度大于第二阈值的图像特征和所述各文本实例对应的文本特征进行融合，以确定所述各文本实例对应的注意力特征，其中，所述第二阈值大于所述第一阈值。 7.一种文本识别装置，包括：权　利　要　求　书 1/3 页 2 CN 114863437 A 2第一获取模块，用于获取待识别文本图像；第二获取模块，用于对所述待识别文本图像进行特征提取，以获取所述待识别文本图像的图像特征；确定模块，用于根据所述图像特征和预设的文本实例分割向量提取所述待识别文本图像之中的各文本实例，并确定所述各文本实例对应的注意力特征；生成模块，用于对所述各文本实例对应的注意力特征进行解码，以生成所述各文本实例对应的识别结果。 8.如权利要求7 所述的装置，其中，所述生成模块，用于：将所述各文本实例对应的注意力特征分别输入到检测网络、识别网络和分类网络之中的一个或多个进行解码，以生成所述各文本实例对应的识别结果，其中，所述识别结果包括检测结果、文本识别结果和分类结果之中的一个或多个。 9.如权利要求7 所述的装置，其中，所述确定模块，包括：获取单元，用于对所述图像特征和所述文本实例分割向量进行解码，以提取所述待识别文本图像之中的所述各文本实例，并获取所述各文本实例对应的文本特征；融合单元，用于对所述图像特征和所述各文本实例对应的文本特征进行融合，以确定所述各文本实例对应的注意力特征。 10.如权利要求9所述的装置，其中，所述获取单元，用于：将所述文本实例分割向量输入到解码模块中的自注意力层进行解码，以获取所述文本实例分割向量对应的中间特征；将所述中间特征与所述图像特征输入到所述解码模块中的交叉注意力层进行解码，以提取所述待识别文本图像中的所述各文本实例，并获取所述各文本实例对应的文本特征。 11.如权利要求9所述的装置，其中，所述图像特征为多尺度图像特征，所述获取单元，用于：获取所述多尺度图像特征中尺度小于第一阈值的图像特征；对所述小于第一阈值的图像特征和所述文本实例分割向量进行解码，以提取所述待识别文本图像之中的所述各文本实例，并获取所述各文本实例对应的文本特征。 12.如权利要求9所述的装置，其中，所述图像特征为多尺度图像特征，所述融合单元，用于：对所述多尺度图像特征中尺度大于第二阈值的图像特征和所述各文本实例对应的文本特征进行融合，以确定所述各文本实例对应的注意力特征，其中，所述第二阈值大于所述第一阈值。 13.一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1 ‑6中任一项所述的方法。 14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1 ‑6中任一项所述的方法。 15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现权权　利　要　求　书 2/3 页 3 CN 114863437 A 3

专利 文本识别方法、装置、电子设备和存储介质

专利文本识别方法、装置、电子设备和存储介质