专利 一种图像语义理解方法、装置、设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210067262.4 (22)申请日 2022.01.20 (71)申请人北京沃东天骏信息技术有限公司地址 100176 北京市大兴区北京经济技术开发区科创十一街18号院2号楼4层 A402室申请人北京京东世纪贸易有限公司 (72)发明人刘志远　赵建博　刘涵宇　马伟　谢奇奇　刘超　刘朋樟　包勇军　 (74)专利代理机构北京品源专利代理有限公司 11332 代理人赵迎迎 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/774(2022.01)G06K 9/62(2022.01) G06F 16/35(2019.01) G06F 40/30(2020.01) G06Q 30/06(2012.01) (54)发明名称一种图像语义理解方法、装置、设备及存储介质 (57)摘要本发明实施例公开了一种图像语义理解方法、装置、设备和存储介质，所述方法包括：获取目标图像信息；将所述目标图像信息输入至预先训练的语义理解模型中，获得所述语义理解模型输出的语义分类结果，所述语义理解模型基于关联的图像信息和文本信息训练得到；根据所述语义分类结果确定语义理解结果。本发明实施例提供的方法通过直接基于获取的关联的图像信息和文本信息训练得到的语义理解模型对目标图像信息进行分类，简化了模型训练时的标注量，实现了少了标注即可训练得到分类准确的语义理解模型。权利要求书2页说明书11页附图4页 CN 114429566 A 2022.05.03 CN 114429566 A 1.一种图像语义理解方法，其特征在于，包括：获取目标图像信息；将所述目标图像信息输入至预先训练的语义理解模型中，获得所述语义理解模型输出的语义分类结果，所述语义理解模型基于关联的图像信息和文本信息训练得到；根据所述语义分类结果确定语义理解结果。 2.根据权利要求1所述的方法，其特征在于，所述语义理解模型包括图像编码子模型和语义分类子模型，所述将所述目标图像信息输入至预先训练的语义理解模型中，获得所述语义理解模型输出的语义分类结果，包括：将所述目标图像信息输入至所述图像编码子模型中，得到所述图像编码子模型输出的目标图像语义向量；将所述目标图像语义向量输入至所述语义分类子模型中，得到所述语义分类子模型输出的语义分类结果。 3.根据权利要求2所述的方法，其特征在于，所述语义理解模型的训练包括：基于评价信息中相关联的图文信息生成正样本数据和负样本数据，根据所述正样本数据和所述负样本数据生成训练样本数据；基于所述训练样本数据，对预先构建的语义理解模型进行训练，得到训练后的语义理解模型。 4.根据权利要求3所述的方法，其特征在于，所述基于评价信息中相关联的图文信息生成正样本数据和负样本数据，包括：获取评价信息中的相关联的图文信息作为样本基础信息；对所述样本基础信息进行数据规范化处理，得到所述正样本数据；将所述评价信息中的图像信息和文本信息随机组合，得到所述负样本数据。 5.根据权利要求3 中的方法，其特征在于，所述图像编码子模型包括文本编码器和图像编码器，所述基于所述训练样本数据，对预先构建的语义理解模型进行训练，得到训练后的语义理解模型，包括：针对所述训练样本数据中的图文信息对，将所述图文信息对的样本文本信息输入至所述文本编码器中，获得所述文本编码器输出的目标文本编码信息，将所述图文信息对的样本图像信息输入至所述图像编码器中，获得所述图像编码器输出的目标图像编码信息；基于所述目标文本编码信息和所述目标图像编码信息确定目标损失值，以所述目标损失值达到收敛条件为目标，对所述图像编码子模型进行训练，得到训练后的图像编码子模型；基于训练后的图像编码子模型对所述语义分类子模型进行训练，得到训练后的语义分类子模型。 6.根据权利要求5所述的方法，其特征在于，所述图文信息对中包含至少两个样本图像信息，所述将所述图文信息对的样本图像信息输入至所述图像编码器中，获得所述图像编码器输出的目标图像编码信息，包括：将各所述样本图像信息叠加，得到叠加图像信息；将所述叠加图像信息输入至所述图像编码器中，获得所述图像编码器输出的目标图像编码信息。权　利　要　求　书 1/2 页 2 CN 114429566 A 27.根据权利要求5所述的方法，其特征在于，所述图文信息对中包含至少两个样本图像信息，所述将所述图文信息对的样本图像信息输入至所述图像编码器中，获得所述图像编码器输出的图像编码信息，包括：分别将各所述样本图像信息输入至所述图像编码器中，得到所述图像编码器输出的各所述样本图像信息的图像编码信息；将各所述样本图像信息的图像编码信息求和，得到所述目标图像编码信息。 8.根据权利要求5所述的方法，其特征在于，所述文本编码器和所述图像编码器分别与所述语义分类子模型相连接，所述基于训练后的图像编码子模型对所述语义分类子模型进行训练，得到训练后的语义分类子模型，包括：针对所述训练样本数据中的文本信息，基于所述文本编码器确定所述文本信息的文本编码信息；根据所述文本编码信息和所述文本信息的标签构建语义分类模型训练样本；基于所述语义分类模型训练样本，对预先构建的语义分类子模型进行训练，得到训练后的语义分类子模型。 9.一种图像语义理解装置，其特征在于，包括：目标图像获取模块，用于获取目标图像信息；模型分类模块，用于将所述目标图像信息输入至预先训练的语义理解模型中，获得所述语义理解模型输出的语义分类结果，所述语义理解模型基于关联的图像信息和文本信息训练得到；语义理解模块，用于根据所述语义分类结果确定语义理解结果。 10.一种计算机设备，其特征在于，所述设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如权利要求 1‑8任一所述的图像语义理解方法。 11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1 ‑8任一所述的图像语义理解方法。权　利　要　求　书 2/2 页 3 CN 114429566 A 3

专利 一种图像语义理解方法、装置、设备及存储介质

专利一种图像语义理解方法、装置、设备及存储介质