(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210297025.7
(22)申请日 2022.03.24
(71)申请人 西安交通大 学
地址 710049 陕西省西安市咸宁西路28号
(72)发明人 罗敏楠 杨名帆 郑庆华 董怡翔
刘欢 秦涛
(74)专利代理 机构 西安通大专利代理有限责任
公司 6120 0
专利代理师 马贵香
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/26(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于全局上下文交互的场景图生成方
法及系统及设备
(57)摘要
本发明公开了一种基于全局上下文交互的
场景图生成方法及系统及设备, 1)基于物体视觉
特征、 空间坐标、 语义标签等多种特征融合的向
量联合表 示; 2)基于双向门控循环神经网络的全
局特征生成; 3)基于全局特征向量的消息迭代传
递机制; 4)基于目标与关系状态表示的场景图生
成。 本发明所 公开的基于全局上下文交互的场景
图生成方法, 同现存的场景图生成方法相比, 通
过上下文交互充分利用图像的全局特征, 更具有
应用广泛性; 同时, 得到上下文交互后的全局特
征后进行目标对与其关系间的消息传递, 利用目
标间的潜在联系更新现有状态, 进行更准确的场
景图生成, 具有实际应用的优势。
权利要求书4页 说明书6页 附图3页
CN 114677544 A
2022.06.28
CN 114677544 A
1.一种基于全局上 下文交互的场景图生成方法, 其特 征在于, 包括
对输入图像I进行目标检测, 得到其目标集合O=(o1, o2,…, on), 以及对应 的视觉特征
集合V=(v1, v2,…, vn)、 坐标特征集合B=(b1, b2,…, bn)、 预分类标签集合L=(l1, l2,…,
ln)、 两两目标坐标并集框内的视 觉特征C=(ci→j, i≠j);
利用神经网络将各目标的绝对位置坐标, 转化得到目标视觉与坐标特征的联合表示向
量fi;
根据特征融合向量F=(f1, f2,…, fn), 得到局上下文目标特征γi与其类别特征向量gi,
使用神经网络将目标的全局上下文目标特征γi与其类别特征向量gi进行融合, 得到此目标
的全局特 征ci;
基于每个目标的全局特征向量ci, 每个关系的特征向量ci→j, 初始化其隐藏状态
进而初始计算各节点传入消息
各边传入消息
并进行迭代传递, 利用
循环神经网络更新隐藏状态
并进行消息聚合得到各时刻i的传入消息
直至达到设置的迭代次数, 然后利用目标节点与关系边的最终状态生成能够
反映图像中目标与目标间关系的场景图。
2.根据权利要求1所述的一种基于全局上下文交互 的场景图生成方法, 其特征在于, 利
用神经网络将各目标的绝对位置坐标, 转化为在图像中相对位置编 码并扩充为相对位置特
征si, 将目标视觉特征vi转为512维, 采用特征融合方法, 将相对位置特征向量si和视觉特征
vi进行拼接并转换, 得到目标视 觉与坐标 特征的联合表示向量fi。
3.根据权利要求2所述的一种基于全局上下文交互 的场景图生成方法, 其特征在于, 基
于特征融合的向量联合表示中, 使用Faster ‑RCNN模型对输入图像I进行 目标检测得到后,
将目标的绝对位置坐标转化为在 图像中相对位置编码bi, 对于目标oi, 其坐标(x1, y1, x2,
y2), 其中x1, y1, x2, y2分别代表其矩形回归框左上与右下坐标, 相对位置编码计算公式:
式中, wid代表图像I原有宽度, hei代表图像I原有高度; 然后, 使用全连接层将相对位
置编码bi扩充为128维特 征si:
si=σ(Wsbi+bs),
其中, σ 代表ReLU激活函数, Ws与bs为线性变换参数, 由神经网络自行学习调整; 同时, 采
用相同方法将目标检测得到的目标视觉特征vi进行维度 变换, 使用全连接层将4096维特征
转为512维; 随后, 将经过维度变换的相对位置特征向量si和视觉特征vi进行拼接并转 换, 最
终得到512维目标视 觉与坐标 特征融合向量fi, 计算流程如下所示:
fi=σ(Wf[si, vi]+bf),
式中, [·]代表拼接操作, σ 代 表ReLU激活函数, Wf与bf为线性变换参数。
4.根据权利要求1所述的一种基于全局上下文交互 的场景图生成方法, 其特征在于, 根
据特征融合向量F=(f1, f2,…, fn), 利用双向门控循环神经网络BiGRU 得到全局上下文目标
特征γ=(γ1, γ2,…, γn); 利用目标检测模块对目标的分类结果L=(l1, l2,…, ln), 得到
各目标的类别特征向量gi, 使用神经网络将目标的全局上下文目标特征γi与其类别特征向权 利 要 求 书 1/4 页
2
CN 114677544 A
2量gi进行融合, 得到此目标的全局特 征ci。
5.根据权利要求4所述的一种基于全局上下文交互 的场景图生成方法, 其特征在于, 基
于双向门控循环神经网络的全局特征生成过程中, 得到目标集合的特征融合向量F=(f1,
f2,…, fn)后, 将其按照相对坐 标中的x坐标由左向右进行排序, 并按序输入双向 门控循环神
经网络BiGRU中实现全局上 下文交互, 得到全局上 下文目标 特征γ=(γ1, γ2,…, γn);
随后, 利用目标检测对目标的分类结果L=(l1, l2,…, ln), 计算分类标签的Glove词嵌
入向量, 得到128 维的目标类别特征向量gi, 最后, 将每个目标的全局上下文目标特征γi与
其类别特 征向量gi进行融合, 得到此目标的全局特 征ci, 上述计算过程如公式所示:
gi=Glove(li),
ci=σ(Wc[γi, gi]+bc),
其中, Glove(li)代表使用Glove方式对目标的预分类标签进行编码, [ ·]代表拼接操
作, Wc与bc为线性变换参数。
6.根据权利要求5 所述的一种基于全局上下文交互的场景图生成方法, 其特征在于, γi
具体生成步骤为:
(1)初始化 零向量作为BiGRU初始状态;
(2)在BiGRU两端, 分别将目标集合中的第一个与最后一个特征融合向量f0与fn输入, 生
成对应方向与顺序的隐藏状态
(3)按序依次向BiGRU两端输入特 征向量, 生成
(4)将正向、 逆向隐藏状态融合, 得到每 个目标的上 下文融合状态γi。
7.根据权利要求1所述的一种基于全局上下文交互 的场景图生成方法, 其特征在于, 基
于全局特征向量的消息迭代传递机制中, 包括构建消息聚合函数、 状态更新函数两种计算
函数;
构建消息聚合函数: 已知第i个目标节点GRU隐藏状态
第i个目标节点到第j个目标
节点的关系边GRU隐藏状态
将第t次迭代时传入第i个节点的消息表示为
则
由
目标GRU自身隐藏状态
其出度边GRU隐藏状态
入度边隐藏状态
计算得到, 其中
i→j代表此关系中目标i 为主语, 目标j为宾语:
相似的, 第t次迭代时第i个目标节点到第j个目标节点的关系边的聚合消息
由关
系边GRU的上一迭代对应的隐藏状态
主语节点GRU隐藏状态
宾语节点GRU隐藏状
态
组成,
与
由以下自适应加权函数求得:
其中, [·]代表拼接操作, σ 代 表ReLU激活函数, w1、 w2和v1、 v2是可学习参数;
构建状态更新函数: 分别构建目标节点GRU和关系边GRU, 对目标和目标间关系的特征
向量
的存储和更新: 首先, 在t=0时, 将每个目标节点与关系边的GRU状态初始化权 利 要 求 书 2/4 页
3
CN 114677544 A
3
专利 一种基于全局上下文交互的场景图生成方法及系统及设备
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:32:34上传分享