专利 图像问答的方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210061065.1 (22)申请日 2022.01.19 (71)申请人中国科学院空天信息创新研究院地址 100190 北京市海淀区北四环西路19 号 (72)发明人张美美　陈方　 (74)专利代理机构北京亿腾知识产权代理事务所(普通合伙) 11309 代理人陈霁 (51)Int.Cl. G06F 16/583(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06V 10/80(2022.01) (54)发明名称图像问答的方法及装置 (57)摘要本发明涉及计算机视觉和自然语言处理技术领域，提供了一种图像问答的方法及装置，在实施例中，方法包括：确定图像；确定图像的问题对应的问题向量；对问题向量进行文本特征提取，确定问题向量对应的文本特征；对图像进行图像特征提取，确定图像对应的图像特征；对文本特征和图像特征进行融合，确定融合特征；其中，融合特征指示了图像中的不同区域和问题的相关性；基于融合特征和图像特征进行分类以理解图像中和所述问题相关的区域的语义，确定图像对应的问题的答案。通过对图像中和问题相关的区域进行理解分析，从而可较为准确的解答图像的问题。权利要求书2页说明书11页附图5页 CN 114417044 A 2022.04.29 CN 114417044 A 1.一种图像问答的方法，其特征在于，所述方法包括：确定图像；确定所述图像的问题对应的问题向量；对所述问题向量进行文本特征提取，确定所述问题向量对应的文本特征；对所述图像进行图像特征提取，确定所述图像对应的图像特征；对所述文本特征和所述图像特征进行融合，确定融合特征；其中，所述融合特征指示了所述图像中的不同区域和所述问题的相关性；基于所述融合特征和所述图像特征进行分类以理解所述图像中和所述问题相关的区域的语义，确定所述图像对应的问题的答案。 2.根据权利要求1所述的方法，其特征在于，所述对所述图像进行图像特征提取，确定所述图像对应的图像特征，包括：对所述图像进行图像特征提取，确定不同尺度的多个第一特征；对所述文本特征进行语义分析，确定所述多个第一特征各自对应的语义权重；基于所述多个第一特征各自对应的语义权重和所述多个第一特征，确定图像特征。 3.根据权利要求2所述的方法，其特征在于，所述图像特征包括满足预设尺度的多个第二特征，所述基于所述多个第一特征各自对应的语义权重和所述多个第一特征，确定图像特征，包括：对于所述多个第一特征的各特征，基于所述第一特征对应的语义权重对所述第一特征进行加权，当第一特征的尺度不满足预设尺度时，对加权后的第一特征进行采样，确定满足预设尺度的第二特征；当第一特征的尺度满足预设尺度时，将加权后的第一特征作为第二特征。 4.根据权利要求1所述的方法，其特征在于，所述基于所述融合特征和所述图像特征进行分类以理解所述图像中和所述问题相关的区域的语义，确定所述图像对应的问题的答案，包括：基于所述图像特征进行分类，确定所述图像中不同区域的语义；基于所述融合特征对所述图像中不同区域的语义进行关注以理解所述图像中和所述问题相关的区域的语义，确定所述图像对应的问题的答案。 5.根据权利要求1所述的方法，其特征在于，所述对所述文本特征和所述图像特征进行融合，确定融合特征，包括：将所述图像特征拉伸为第一向量；基于所述第一向量和所述文本特征进行向量拼接，确定第二向量；对所述第二向量进行矩阵化，确定融合特征；其中，所述融合特征的尺度和所述图像特征的尺度相同。 6.根据权利要求1所述的方法，其特征在于，所述问题为全局问题或局部问题。 7.根据权利要求6所述的方法，其特征在于，所述局部问题指示了所述图像中的目标相关的问题，所述全局问题指示了所述图像的场景相关的问题。 8.根据权利要求1所述的方法，其特征在于，所述方法还包括：确定问答模型，所述问答模型包括图像特征提取模型、文本特征提取模型、融合模型和答案预测模型；其中，所述文本特征提取模型用于对所述问题向量进行文本特征提取，确定权　利　要　求　书 1/2 页 2 CN 114417044 A 2所述问题向量对应的文本特征；所述图像特征提取模型用于对所述图像进行图像特征提取，确定所述图像对应的图像特征；所述融合模型用于对所述文本特征和所述图像特征进行融合，确定融合特征；所述答案预测模型用于基于所述融合特征和所述图像特征进行分类以理解所述图像中和所述问题相关的区域的语义，确定所述图像对应的问题的答案。 9.根据权利要8所述的方法，其特征在于，所述方法还包括：确定所述图像的问题对应的标注答案；基于所述图像的问题对应的答案和标注答案之间的误差，对所述问答模型进行训练。 10.一种图像问答的装置，其特征在于，包括：图像确定模块，用于确定图像；向量确定模块，用于确定所述图像的问题对应的问题向量；文本特征提取模块，用于对所述问题向量进行文本特征提取，确定所述问题向量对应的文本特征；图像特征提取模块，用于对所述图像进行图像特征提取，确定所述图像对应的图像特征；融合模块，用于对所述文本特征和所述图像特征进行融合，确定融合特征；其中，所述融合特征指示了所述图像中和所述问题相关的区域的特征；答案预测模块，用于基于所述融合特征和所述图像特征进行分类以理解所述图像中和所述问题相关的区域的语义，确定所述图像对应的问题的答案。权　利　要　求　书 2/2 页 3 CN 114417044 A 3

专利 图像问答的方法及装置

专利图像问答的方法及装置