安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210297025.7 (22)申请日 2022.03.24 (71)申请人 西安交通大 学 地址 710049 陕西省西安市咸宁西路28号 (72)发明人 罗敏楠 杨名帆 郑庆华 董怡翔  刘欢 秦涛  (74)专利代理 机构 西安通大专利代理有限责任 公司 6120 0 专利代理师 马贵香 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/26(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于全局上下文交互的场景图生成方 法及系统及设备 (57)摘要 本发明公开了一种基于全局上下文交互的 场景图生成方法及系统及设备, 1)基于物体视觉 特征、 空间坐标、 语义标签等多种特征融合的向 量联合表 示; 2)基于双向门控循环神经网络的全 局特征生成; 3)基于全局特征向量的消息迭代传 递机制; 4)基于目标与关系状态表示的场景图生 成。 本发明所 公开的基于全局上下文交互的场景 图生成方法, 同现存的场景图生成方法相比, 通 过上下文交互充分利用图像的全局特征, 更具有 应用广泛性; 同时, 得到上下文交互后的全局特 征后进行目标对与其关系间的消息传递, 利用目 标间的潜在联系更新现有状态, 进行更准确的场 景图生成, 具有实际应用的优势。 权利要求书4页 说明书6页 附图3页 CN 114677544 A 2022.06.28 CN 114677544 A 1.一种基于全局上 下文交互的场景图生成方法, 其特 征在于, 包括 对输入图像I进行目标检测, 得到其目标集合O=(o1, o2,…, on), 以及对应 的视觉特征 集合V=(v1, v2,…, vn)、 坐标特征集合B=(b1, b2,…, bn)、 预分类标签集合L=(l1, l2,…, ln)、 两两目标坐标并集框内的视 觉特征C=(ci→j, i≠j); 利用神经网络将各目标的绝对位置坐标, 转化得到目标视觉与坐标特征的联合表示向 量fi; 根据特征融合向量F=(f1, f2,…, fn), 得到局上下文目标特征γi与其类别特征向量gi, 使用神经网络将目标的全局上下文目标特征γi与其类别特征向量gi进行融合, 得到此目标 的全局特 征ci; 基于每个目标的全局特征向量ci, 每个关系的特征向量ci→j, 初始化其隐藏状态 进而初始计算各节点传入消息 各边传入消息 并进行迭代传递, 利用 循环神经网络更新隐藏状态 并进行消息聚合得到各时刻i的传入消息 直至达到设置的迭代次数, 然后利用目标节点与关系边的最终状态生成能够 反映图像中目标与目标间关系的场景图。 2.根据权利要求1所述的一种基于全局上下文交互 的场景图生成方法, 其特征在于, 利 用神经网络将各目标的绝对位置坐标, 转化为在图像中相对位置编 码并扩充为相对位置特 征si, 将目标视觉特征vi转为512维, 采用特征融合方法, 将相对位置特征向量si和视觉特征 vi进行拼接并转换, 得到目标视 觉与坐标 特征的联合表示向量fi。 3.根据权利要求2所述的一种基于全局上下文交互 的场景图生成方法, 其特征在于, 基 于特征融合的向量联合表示中, 使用Faster ‑RCNN模型对输入图像I进行 目标检测得到后, 将目标的绝对位置坐标转化为在 图像中相对位置编码bi, 对于目标oi, 其坐标(x1, y1, x2, y2), 其中x1, y1, x2, y2分别代表其矩形回归框左上与右下坐标, 相对位置编码计算公式: 式中, wid代表图像I原有宽度, hei代表图像I原有高度; 然后, 使用全连接层将相对位 置编码bi扩充为128维特 征si: si=σ(Wsbi+bs), 其中, σ 代表ReLU激活函数, Ws与bs为线性变换参数, 由神经网络自行学习调整; 同时, 采 用相同方法将目标检测得到的目标视觉特征vi进行维度 变换, 使用全连接层将4096维特征 转为512维; 随后, 将经过维度变换的相对位置特征向量si和视觉特征vi进行拼接并转 换, 最 终得到512维目标视 觉与坐标 特征融合向量fi, 计算流程如下所示: fi=σ(Wf[si, vi]+bf), 式中, [·]代表拼接操作, σ 代 表ReLU激活函数, Wf与bf为线性变换参数。 4.根据权利要求1所述的一种基于全局上下文交互 的场景图生成方法, 其特征在于, 根 据特征融合向量F=(f1, f2,…, fn), 利用双向门控循环神经网络BiGRU 得到全局上下文目标 特征γ=(γ1, γ2,…, γn); 利用目标检测模块对目标的分类结果L=(l1, l2,…, ln), 得到 各目标的类别特征向量gi, 使用神经网络将目标的全局上下文目标特征γi与其类别特征向权 利 要 求 书 1/4 页 2 CN 114677544 A 2量gi进行融合, 得到此目标的全局特 征ci。 5.根据权利要求4所述的一种基于全局上下文交互 的场景图生成方法, 其特征在于, 基 于双向门控循环神经网络的全局特征生成过程中, 得到目标集合的特征融合向量F=(f1, f2,…, fn)后, 将其按照相对坐 标中的x坐标由左向右进行排序, 并按序输入双向 门控循环神 经网络BiGRU中实现全局上 下文交互, 得到全局上 下文目标 特征γ=(γ1, γ2,…, γn); 随后, 利用目标检测对目标的分类结果L=(l1, l2,…, ln), 计算分类标签的Glove词嵌 入向量, 得到128 维的目标类别特征向量gi, 最后, 将每个目标的全局上下文目标特征γi与 其类别特 征向量gi进行融合, 得到此目标的全局特 征ci, 上述计算过程如公式所示: gi=Glove(li), ci=σ(Wc[γi, gi]+bc), 其中, Glove(li)代表使用Glove方式对目标的预分类标签进行编码, [ ·]代表拼接操 作, Wc与bc为线性变换参数。 6.根据权利要求5 所述的一种基于全局上下文交互的场景图生成方法, 其特征在于, γi 具体生成步骤为: (1)初始化 零向量作为BiGRU初始状态; (2)在BiGRU两端, 分别将目标集合中的第一个与最后一个特征融合向量f0与fn输入, 生 成对应方向与顺序的隐藏状态 (3)按序依次向BiGRU两端输入特 征向量, 生成 (4)将正向、 逆向隐藏状态融合, 得到每 个目标的上 下文融合状态γi。 7.根据权利要求1所述的一种基于全局上下文交互 的场景图生成方法, 其特征在于, 基 于全局特征向量的消息迭代传递机制中, 包括构建消息聚合函数、 状态更新函数两种计算 函数; 构建消息聚合函数: 已知第i个目标节点GRU隐藏状态 第i个目标节点到第j个目标 节点的关系边GRU隐藏状态 将第t次迭代时传入第i个节点的消息表示为 则 由 目标GRU自身隐藏状态 其出度边GRU隐藏状态 入度边隐藏状态 计算得到, 其中 i→j代表此关系中目标i 为主语, 目标j为宾语: 相似的, 第t次迭代时第i个目标节点到第j个目标节点的关系边的聚合消息 由关 系边GRU的上一迭代对应的隐藏状态 主语节点GRU隐藏状态 宾语节点GRU隐藏状 态 组成, 与 由以下自适应加权函数求得: 其中, [·]代表拼接操作, σ 代 表ReLU激活函数, w1、 w2和v1、 v2是可学习参数; 构建状态更新函数: 分别构建目标节点GRU和关系边GRU, 对目标和目标间关系的特征 向量 的存储和更新: 首先, 在t=0时, 将每个目标节点与关系边的GRU状态初始化权 利 要 求 书 2/4 页 3 CN 114677544 A 3

.PDF文档 专利 一种基于全局上下文交互的场景图生成方法及系统及设备

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于全局上下文交互的场景图生成方法及系统及设备 第 1 页 专利 一种基于全局上下文交互的场景图生成方法及系统及设备 第 2 页 专利 一种基于全局上下文交互的场景图生成方法及系统及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:32:34上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。