专利 多模态特征的融合方法、装置、设备、介质和产品

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210416064.4 (22)申请日 2022.04.20 (71)申请人北京百度网讯科技有限公司地址 100085 北京市海淀区上地十街10号百度大厦2层 (72)发明人章良杰　岳洪达　许海洋　冯博豪　 (74)专利代理机构北京钲霖知识产权代理有限公司 11722 专利代理师李英艳　杨继成 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/44(2022.01) G06K 9/62(2022.01) G06V 30/18(2022.01) (54)发明名称多模态特征的融合方法、装置、设备、介质和产品 (57)摘要本公开提供了一种多模态特征的融合方法、装置、设备、介质和产品，涉及人工智能技术领域，尤其涉及自然语言处理、光学字符识别等技术领域，可应用于智慧金融等场景。具体实现方案为：获取包括有文本的图像；对图像进行特征识别，得到文本的文本特征以及位置特征；将图像按照预设规则划分为多个区域，并提取多个区域中至少一个区域的图像特征；对文本特征进行编码，得到文本向量；以及，对至少一个区域的图像特征进行编码，得到至少一个区域的图像向量；以及，对位置特征进行编码，得到位置向量；将文本向量、至少一个区域的图像向量和位置向量进行融合，得到融合后的目标向量。本公开能够提高多模态特征的融合程度。权利要求书3页说明书12页附图8页 CN 114821255 A 2022.07.29 CN 114821255 A 1.一种多模态特征的融合方法，包括：获取包括有文本的图像；对所述图像进行特征识别，得到所述文本的文本特征以及位置特征；将所述图像按照预设规则划分为多个区域，并提取所述多个区域中至少一个区域的图像特征；对所述文本特征进行编码，得到文本向量；以及，对所述至少一个区域的图像特征进行编码，得到所述至少一个区域的图像向量；以及，对所述位置特征进行编码，得到位置向量；将所述文本向量、所述至少一个区域的图像向量和所述位置向量进行融合，得到融合后的目标向量。 2.根据权利要求1所述的方法，其中，所述对所述文本特征进行编码，得到文本向量，包括：对文本进行分词，并将分词结果进行序列化，得到多个序列；根据多个序列中各序列间的相对位置信息，确定各序列的一维位置编码；基于表征所述序列语义信息的词嵌入，所述序列的一维位置编码，以及区别于其他序列的段嵌入，确定所述序列的序列向量；基于所述文本中的各序列对应的序列向量，生成文本向量。 3.根据权利要求1所述的方法，其中，所述对所述至少一个区域的图像特征进行编码，得到至少一个区域的图像向量，包括：对所述至少一个区域的图像特征进行池化处理，得到所述至少一个区域的初始图像向量；对所述至少一个区域的初始图像向量分别进行线性变换；根据至少一个区域的位置关系，确定所述至少一个区域对应初始图像向量的一维位置编码；基于至少一个区域线性变换后的初始图像向量、一维位置编码和区别于其他初始图像向量的段嵌入，确定至少一个区域的图像向量。 4.根据权利要求1所述的方法，其中，所述位置特征为二维位置特征，所述位置向量为二维位置向量；所述对所述位置特征进行编码，得到位置向量，包括：对所述二维位置特征表征的文本框的第一坐标和第二坐标，以及所述文本框的高度和所述文本框的宽度进行编码，所述第一坐标和所述第二坐标分别为所述文本框对角线位置处的坐标；将编码后所述第一坐标中的x坐标和所述第二坐标中的x坐标，与编码后所述文本框的宽度进行拼接，得到x轴方向的位置向量；将编码后所述第一坐标中的y坐标和所述第二坐标中的y坐标，与编码后所述文本框的高度进行拼接，得到y轴方向的位置向量；将所述x轴方向的位置向量和所述y轴方向的位置向量，作为所述文本框的二维位置向量。 5.根据权利要求1 ‑4中任意一项所述的方法，其中，所述将所述文本向量、所述至少一个区域的图像向量和所述位置向量进行融合，得到融合后的目标向量，包括：权　利　要　求　书 1/3 页 2 CN 114821255 A 2将所述文本向量和所述至少一个区域的图像向量进行拼接；在拼接后的向量上叠加所述位置向量，得到输入向量；将所述输入向量输入Ber t模型进行融合，得到融合后的目标向量。 6.根据权利要求5所述的方法，其中，所述Ber t模型中包括多个编码器；所述将所述输入向量输入Ber t模型进行融合，得到融合后的目标向量，包括：将所述输入向量输入第一个编码器；在所述第一个编码器中基于所述输入向量中各文本向量以及图像向量之间的相似度，确定相似度注意力分数；基于所述相似度注意力分数，和所述各文本向量对应的位置向量以及所述图像向量对应的位置向量，确定空间注意力分数；基于所述空间注意力分数，得到所述第一个编码器的输出；将所述第一个编码器的输出作为第二个编码器的输入，直到通过所有编码器后，得到融合后的目标向量。 7.根据权利要求1 ‑6中任意一项所述的方法，还包括：在所述目标向量中提取实体及实体关系。 8.一种多模态特征的融合装置，包括：获取单元，用于获取包括有文本的图像；识别单元，用于对所述图像进行特征识别，得到所述文本的文本特征以及位置特征；划分并提取单元，用于将所述图像按照预设规则划分为多个区域，并提取所述多个区域中至少一个区域的图像特征；确定向量单元，用于对所述文本特征进行编码，得到文本向量；以及，对所述至少一个区域的图像特征进行编码，得到所述至少一个区域的图像向量；以及，对所述位置特征进行编码，得到位置向量；融合单元，用于将所述文本向量、所述至少一个区域的图像向量和所述位置向量进行融合，得到融合后的目标向量。 9.根据权利要求8所述的装置，其中，所述确定向量单元用于：对文本进行分词，并将分词结果进行序列化，得到多个序列；根据多个序列中各序列间的相对位置信息，确定各序列的一维位置编码；基于表征所述序列语义信息的词嵌入，所述序列的一维位置编码，以及区别于其他序列的段嵌入，确定所述序列的序列向量；基于所述文本中的各序列对应的序列向量，生成文本向量。 10.根据权利要求8所述的装置，其中，所述确定向量单元还用于：对所述至少一个区域的图像特征进行池化处理，得到所述至少一个区域的初始图像向量；对所述至少一个区域的初始图像向量分别进行线性变换；根据至少一个区域的位置关系，确定所述至少一个区域对应初始图像向量的一维位置编码；基于至少一个区域线性变换后的初始图像向量、一维位置编码和区别于其他初始图像向量的段嵌入，确定至少一个区域的图像向量。权　利　要　求　书 2/3 页 3 CN 114821255 A 3

专利 多模态特征的融合方法、装置、设备、介质和产品

专利多模态特征的融合方法、装置、设备、介质和产品