专利 一种基于全局上下文交互的场景图生成方法及系统及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210297025.7 (22)申请日 2022.03.24 (71)申请人西安交通大学地址 710049 陕西省西安市咸宁西路28号 (72)发明人罗敏楠　杨名帆　郑庆华　董怡翔　刘欢　秦涛　 (74)专利代理机构西安通大专利代理有限责任公司 6120 0 专利代理师马贵香 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于全局上下文交互的场景图生成方法及系统及设备 (57)摘要本发明公开了一种基于全局上下文交互的场景图生成方法及系统及设备， 1)基于物体视觉特征、空间坐标、语义标签等多种特征融合的向量联合表示； 2)基于双向门控循环神经网络的全局特征生成； 3)基于全局特征向量的消息迭代传递机制； 4)基于目标与关系状态表示的场景图生成。本发明所公开的基于全局上下文交互的场景图生成方法，同现存的场景图生成方法相比，通过上下文交互充分利用图像的全局特征，更具有应用广泛性；同时，得到上下文交互后的全局特征后进行目标对与其关系间的消息传递，利用目标间的潜在联系更新现有状态，进行更准确的场景图生成，具有实际应用的优势。权利要求书4页说明书6页附图3页 CN 114677544 A 2022.06.28 CN 114677544 A 1.一种基于全局上下文交互的场景图生成方法，其特征在于，包括对输入图像I进行目标检测，得到其目标集合O＝(o1， o2，…， on)，以及对应的视觉特征集合V＝(v1， v2，…， vn)、坐标特征集合B＝(b1， b2，…， bn)、预分类标签集合L＝(l1， l2，…， ln)、两两目标坐标并集框内的视觉特征C＝(ci→j， i≠j)；利用神经网络将各目标的绝对位置坐标，转化得到目标视觉与坐标特征的联合表示向量fi；根据特征融合向量F＝(f1， f2，…， fn)，得到局上下文目标特征γi与其类别特征向量gi，使用神经网络将目标的全局上下文目标特征γi与其类别特征向量gi进行融合，得到此目标的全局特征ci；基于每个目标的全局特征向量ci，每个关系的特征向量ci→j，初始化其隐藏状态进而初始计算各节点传入消息各边传入消息并进行迭代传递，利用循环神经网络更新隐藏状态并进行消息聚合得到各时刻i的传入消息直至达到设置的迭代次数，然后利用目标节点与关系边的最终状态生成能够反映图像中目标与目标间关系的场景图。 2.根据权利要求1所述的一种基于全局上下文交互的场景图生成方法，其特征在于，利用神经网络将各目标的绝对位置坐标，转化为在图像中相对位置编码并扩充为相对位置特征si，将目标视觉特征vi转为512维，采用特征融合方法，将相对位置特征向量si和视觉特征 vi进行拼接并转换，得到目标视觉与坐标特征的联合表示向量fi。 3.根据权利要求2所述的一种基于全局上下文交互的场景图生成方法，其特征在于，基于特征融合的向量联合表示中，使用Faster ‑RCNN模型对输入图像I进行目标检测得到后，将目标的绝对位置坐标转化为在图像中相对位置编码bi，对于目标oi，其坐标(x1， y1， x2， y2)，其中x1， y1， x2， y2分别代表其矩形回归框左上与右下坐标，相对位置编码计算公式：式中， wid代表图像I原有宽度， hei代表图像I原有高度；然后，使用全连接层将相对位置编码bi扩充为128维特征si： si＝σ(Wsbi+bs)，其中， σ 代表ReLU激活函数， Ws与bs为线性变换参数，由神经网络自行学习调整；同时，采用相同方法将目标检测得到的目标视觉特征vi进行维度变换，使用全连接层将4096维特征转为512维；随后，将经过维度变换的相对位置特征向量si和视觉特征vi进行拼接并转换，最终得到512维目标视觉与坐标特征融合向量fi，计算流程如下所示： fi＝σ(Wf[si， vi]+bf)，式中， [·]代表拼接操作， σ 代表ReLU激活函数， Wf与bf为线性变换参数。 4.根据权利要求1所述的一种基于全局上下文交互的场景图生成方法，其特征在于，根据特征融合向量F＝(f1， f2，…， fn)，利用双向门控循环神经网络BiGRU 得到全局上下文目标特征γ＝(γ1， γ2，…， γn)；利用目标检测模块对目标的分类结果L＝(l1， l2，…， ln)，得到各目标的类别特征向量gi，使用神经网络将目标的全局上下文目标特征γi与其类别特征向权　利　要　求　书 1/4 页 2 CN 114677544 A 2量gi进行融合，得到此目标的全局特征ci。 5.根据权利要求4所述的一种基于全局上下文交互的场景图生成方法，其特征在于，基于双向门控循环神经网络的全局特征生成过程中，得到目标集合的特征融合向量F＝(f1， f2，…， fn)后，将其按照相对坐标中的x坐标由左向右进行排序，并按序输入双向门控循环神经网络BiGRU中实现全局上下文交互，得到全局上下文目标特征γ＝(γ1， γ2，…， γn)；随后，利用目标检测对目标的分类结果L＝(l1， l2，…， ln)，计算分类标签的Glove词嵌入向量，得到128 维的目标类别特征向量gi，最后，将每个目标的全局上下文目标特征γi与其类别特征向量gi进行融合，得到此目标的全局特征ci，上述计算过程如公式所示： gi＝Glove(li)， ci＝σ(Wc[γi， gi]+bc)，其中， Glove(li)代表使用Glove方式对目标的预分类标签进行编码， [ ·]代表拼接操作， Wc与bc为线性变换参数。 6.根据权利要求5 所述的一种基于全局上下文交互的场景图生成方法，其特征在于， γi 具体生成步骤为： (1)初始化零向量作为BiGRU初始状态； (2)在BiGRU两端，分别将目标集合中的第一个与最后一个特征融合向量f0与fn输入，生成对应方向与顺序的隐藏状态 (3)按序依次向BiGRU两端输入特征向量，生成 (4)将正向、逆向隐藏状态融合，得到每个目标的上下文融合状态γi。 7.根据权利要求1所述的一种基于全局上下文交互的场景图生成方法，其特征在于，基于全局特征向量的消息迭代传递机制中，包括构建消息聚合函数、状态更新函数两种计算函数；构建消息聚合函数：已知第i个目标节点GRU隐藏状态第i个目标节点到第j个目标节点的关系边GRU隐藏状态将第t次迭代时传入第i个节点的消息表示为则由目标GRU自身隐藏状态其出度边GRU隐藏状态入度边隐藏状态计算得到，其中 i→j代表此关系中目标i 为主语，目标j为宾语：相似的，第t次迭代时第i个目标节点到第j个目标节点的关系边的聚合消息由关系边GRU的上一迭代对应的隐藏状态主语节点GRU隐藏状态宾语节点GRU隐藏状态组成，与由以下自适应加权函数求得：其中， [·]代表拼接操作， σ 代表ReLU激活函数， w1、 w2和v1、 v2是可学习参数；构建状态更新函数：分别构建目标节点GRU和关系边GRU，对目标和目标间关系的特征向量的存储和更新：首先，在t＝0时，将每个目标节点与关系边的GRU状态初始化权　利　要　求　书 2/4 页 3 CN 114677544 A 3

专利 一种基于全局上下文交互的场景图生成方法及系统及设备

专利一种基于全局上下文交互的场景图生成方法及系统及设备