安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210105755.2 (22)申请日 2022.01.28 (71)申请人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 申请人 北京第二外国语学院 (72)发明人 赵海英 高子惠  (74)专利代理 机构 北京世誉鑫诚专利代理有限 公司 11368 专利代理师 仲伯煊 (51)Int.Cl. G06F 16/583(2019.01) G06V 10/42(2022.01) G06V 10/44(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06V 10/74(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于自注意力机制的传统纹样子图检 索方法 (57)摘要 本发明公开了一种基于自注意力机制的传 统纹样子图检索方法, 该方法包括以下步骤: 利 用训练数据集对子图检索模型进行训练; 提取不 同层次的特征图, 并利用特征金字塔进行融合; 进行全局特征及局部特征的提取; 进行注意力权 重计算, 并对加权后的融合特征图进行聚合得到 子图特征; 计算查询子图特征与数据库图像特征 的相似度, 将数据库按照相似度进行排序实现子 图检索。 本发 明将具有丰富语义信息的高层特征 与相应的具有丰富的空间信息的底层特征图进 行融合, 使Transformer生成的预选框可以捕捉 更小的细节, 利用attention机制对融合特征计 算自注意力权重, 对子图特征图加权, 忽略大多 不重要的信息, 以取得更好的检索结果。 权利要求书3页 说明书7页 附图1页 CN 114510594 A 2022.05.17 CN 114510594 A 1.一种基于自注意力机制的传统纹样子图检索方法, 其特征在于, 该方法包括以下步 骤: S1、 构建基于传统纹样图片的数据集, 并利用该数据集对预先构建的子图检索模型进 行训练; S2、 利用卷积神经网络提取一系列处于不同层次的特征图, 并将提取到的特征图利用 特征金字塔进行融合; S3、 利用Transformer对基于数据库图像生成的融合特征 图进行全局特征及局部特征 的提取; S4、 利用Vision  Transformer对用户输入的子图进行注意力权重计算, 并对加权后的 融合特征图进行聚合得到 子图特征; S5、 计算查询子 图特征与数据库图像特征的相似度, 并按照相似性得分进行排序实现 子图检索。 2.根据权利要求1所述的一种基于自注意力机制的传统纹样子图检索方法, 其特征在 于, 所述构建基于传统纹样图片的训练数据集, 并利用该数据集对预先构建的子图检索模 型进行训练包括以下步骤: S11、 获取预设数量的传统纹样图片, 并对传统纹样图片中的目标位置及类别信息进行 手动标注, 得到标注好的数据集; S12、 将整个数据库随机划分为训练集和测试集两个集合, 训练集与测试集的比例为8: 2, 在训练过程中使用训练集训练拟合模型, 使用测试集进行模型预测, 衡量模型的性能和 能力, 并记录准确率; S13、 利用图像处理工具对标注好的数据库图像进行图像 中子元素的分割提取, 并去除 背景得到查询子图数据集; S14、 构建子图检索模型, 并利用数据集对该子图检索模型进行训练。 3.根据权利要求2所述的一种基于自注意力机制的传统纹样子图检索方法, 其特征在 于, 所述子图检索模型在DETR模型的基础上增加特征融合模块, 采用ResNet作为主干提取 图像不同卷积层的特征, 进行特征融合后得到1024维的特征图, 输入Transformer结构中, Transformer会生成N个预测, 所用的损失函数如下: 其中, yi表示ground  truth, 即数据集中已标记的类别与目标位置, 表示 Transormer生成的第σ(i)个预测, 表示ground  truthyi与预测 之 间的类别损失与IoU损失的和, 由于N的数量会大于ground  truth的数量, 因此, 对yi使用空 集补齐为N, 使其与N个预测进行二部图匹配, 当N个元素之间的排列 使得损失最小, 则为两个集 合之间最优二部图匹配, 表示预测集与ground  truth最优的二部图匹配。 4.根据权利要求1所述的一种基于自注意力机制的传统纹样子图检索方法, 其特征在 于, 所述利用卷积神经网络提取一系列处于不同层次的特征图, 并将提取到的特征图利用 特征金字塔进行融合包括以下步骤: S21、 利用残差网络提取输入图像每个阶段最后一个残差结构的特征激活输出, 并采用权 利 要 求 书 1/3 页 2 CN 114510594 A 2{L1, L2, L3, L 4}表示, 其中L1至L 4表示不同的残差网络卷积组; S22、 利用1*1的卷积层将L 4特征图的通道数降低至与L3特 征图的通道数一 致; S23、 利用 最近邻插值法进行上采样, 将L4特征图的维度调整为与L3特征图的维度一 致; S24、 将调整后的L 4特征图与L3特 征图进行 逐元素相加, 得到融合后的特 征图; S25、 利用1*1的卷积层对融合后的特征图进行通道数降低处理, 并采用最近邻插值法 进行上采样后与L2特 征图相加, 得到最终的融合特 征图; S26、 利用3*3 的卷积层对生成的融合特征图进行融合, 生成最终通道数为1024维的特 征图。 5.根据权利要求4所述的一种基于自注意力机制的传统纹样子图检索方法, 其特征在 于, 所述融合后的特 征图在特 征融合时的计算公式如下: Gf(s, t, j)=GL(s, t, d)* δ(3, 3, d); 其中, δ(1,1,k)表示k维1x1 的卷积核, δ(3,3,d)表示 d维3x3的卷积核, 表 示Li层宽为m高为n通道数为k的特征图, 表示Li层特征通道数降为d 的特征图, 表示Li‑1层宽为s高为t通道数为d的特征图, GL(s, t, d)表示Li与Li‑1层的特征 图合并后的宽为s高为t通道数为d的特征图, Gf(s, t, j)表示最终生成的宽为s高为t通道数 为j的融合特 征图, Fupsample[*]表示上采样。 6.根据权利要求4所述的一种基于自注意力机制的传统纹样子图检索方法, 其特征在 于, 所述利用Transformer对基于数据库图像生成的融合特征图进行全局特征及局部特征 的提取包括以下步骤: S31、 将融合特征图作为数据库图像全局特征图, 输入Transformer中生成预选框, 并将 预选框映射回融合特 征图中提取局部特 征图; S32、 利用R ‑MAC算法对全局特征图及局部特征图进行聚合, 生成数据库图像的全局特 征及局部特 征并保存至数据库。 7.根据权利要求6所述的一种基于自注意力机制的传统纹样子图检索方法, 其特征在 于, 所述Transformer在生成预选框时无需经过预测, 将预选框的坐标映射回融合特征图 中, 提取局部卷积特 征图, 每个局部卷积特 征图通过 下式得到: 其中, X表示 图像的卷积特征图, 本质上是个三维矩阵, w和h分别表示卷积特征的宽和 高, 用xmin, xmax, ymin, ymax表示生成预选框的在原图中的坐 标位置, Iw, Ih表示图像的宽、 高, 数 据库中的图像输入进Transformer中会生 成多个目标区域, 下标i表示生 成的第i个预选框, 表示向上 取整, 表示向下 取整。 8.根据权利要求1所述的一种基于自注意力机制的传统纹样子图检索方法, 其特征在权 利 要 求 书 2/3 页 3 CN 114510594 A 3

PDF文档 专利 一种基于自注意力机制的传统纹样子图检索方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于自注意力机制的传统纹样子图检索方法 第 1 页 专利 一种基于自注意力机制的传统纹样子图检索方法 第 2 页 专利 一种基于自注意力机制的传统纹样子图检索方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:02上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。