安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210451005.0 (22)申请日 2022.04.27 (71)申请人 新疆大学 地址 830046 新疆 维吾尔自治区乌鲁 木齐 市胜利路14 号 (72)发明人 玛依热·依布拉音 李媛  艾斯卡尔·艾木都拉   (74)专利代理 机构 成都希盛知识产权代理有限 公司 512 26 专利代理师 何强 (51)Int.Cl. G06V 20/62(2022.01) G06V 10/28(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06V 10/44(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称 场景文本 检测系统 (57)摘要 本发明涉及属于文本检测领域。 本发 明提供 场景文本检测系统, 包括: 图像获取单元, 特征提 取单元, 特征融合单元以及可微分二值化模块, 其中, 特征提取单元, 用于使用Resnet提取原始 图像的特征图, 所述Resnet骨干网络中嵌入残 差 校正支路; 所述残差校正支路, 用于在Resnet对 原始图像进行常规卷积获得输入 特征后, 构成两 个支路; 其中一支路通过下采样将 输入特征转换 为低维嵌入, 由该低维嵌入来校准另一支路中卷 积核的卷积变换, 并最终得到原始图像的特征 图; 最终根据目标特征图确定图像中的目标文本 区域。 本发明引入了残差校正支路(RCB)来扩大 感受野, 来提升获取上下文信息的能力, 从而获 得更大感受野的上 下文信息 。 权利要求书2页 说明书10页 附图3页 CN 114926826 A 2022.08.19 CN 114926826 A 1.场景文本检测系统, 包括: 图像获取单元, 特征提取单元, 特征融合单元以及可微分 二值化模块, 其特 征在于: 所述图像获取 单元, 用于获取原 始图像; 所述特征提取单元, 用于使用Resnet提取原始图像的特征 图; 所述Resnet骨干网络中 嵌入残差校正支路; 所述残差校正支路, 用于在Resnet对原始图像进行常规卷积获得输入 特征后, 构成两个支路; 其中一支路通过下采样将输入特征转换为低维嵌入, 由该低维嵌入 来校准另一支路中卷积核的卷积变换, 最终得到原 始图像的特 征图; 所述特征融合单 元, 用于使用FPN对所述特 征图进行 特征融合, 最终取 得目标特征图; 所述可微分二 值化模块, 用于根据目标 特征图确定图像中的目标文本区域。 2.根据权利要求1所述的场景文本检测系统, 其特征在于, 所述残差校正支路的两个支 路分别为第一支路及第二支路; 所述第一支路用于, 对输入特 征进行常规卷积提取第一支路特 征; 所述第二支路用于, 对输入特征进行平均池化下采样r倍后进行卷积后进行上采样, 最 后经过Sigmoid激活函数后得到第二支路特 征; 所述残差校正支路还用于, 对第一支路特征及第二支路特征进行点乘操作, 得到输出 特征; 输出特征与原始图像进行加 和后, 经过Relu激活函数后得到原 始图像的特 征图。 3.根据权利要求2所述的场景文本检测系统, 其特征在于, 采用平均池化下采样r倍, 计 算公式如下: x′2=AvgPoolr(x2) 其中, x2为第二支路的输入特 征; x'2为第二支路的特 征转换; r= 4。 4.根据权利要求3所述的场景文本检测系 统, 其特征在于, 经过Sigmoid激活函数后得 到第二支路特 征的计算公式如下: 其中, y2为第二支路特征; Up( ·)是最近邻插值上采样; x'2为第二支路的特征转换; k2 表示卷积 操作。 5.根据权利要求4所述的场景文本检测系统, 其特征在于, 第 一支路特征的计算公式如 下: 其中, y1为第一分支特 征; x1为第一支路的输入特 征; k1表示卷积 操作。 6.根据权利要求1 ‑5任意一项所述的场景文本检测系统, 其特征在于, 所述FPN结构中 嵌入双分支 注意特征融合模块; 所述双分支注意特征融合模块, 用于增强多尺度场景文本的特征表达, 使其检测的准 确性得到提高。 7.根据权利要求6所述的场景文本检测系统, 其特征在于, 所述双 分支注意特征融合模 块包括全局特 征通道以及局部特 征通道; 所述FPN, 用于对原 始图像的任意两个特 征图进行初始融合后, 得到初始融合特 征;权 利 要 求 书 1/2 页 2 CN 114926826 A 2所述全局特征通道, 用于对初始融合特征进行全局平均池化处理, 再对其进行卷积提 取全局特 征通道注意力; 所述局部特 征通道, 用于对初始融合特 征进行卷积提取局部特 征通道注意力; 双分支注意特征融合模块, 还用于将全局特征通道注意力与局部特征通道注意力进行 加和后, 再对其进 行激活, 然后再与 原始图像的特征图中较大尺寸特征图进行逐元素相乘, 从而最终确定目标 特征图。 8.根据权利要求7所述的场景文本检测系统, 其特征在于, 全局特征通道注意力的计算 公式如下: g(X)=B(PWCo nv2( δ(B(PWCo nv1(Avg(X)))))) 其中, g(X)表示全局特征通道注意力; B表示BatchNorm层; PWConv表示逐点卷积; δ表示 Relu激活函数, X表示初始融合特 征; Avg表示全局平均池化。 9.根据权利要求8所述的场景文本检测系统, 其特征在于, 局部特征通道注意力的计算 公式如下: L(X)=B(PWCo nv2( δ(B(PWCo nv1(x))))) 其中, L(X)表示局部特征通道注意力; B表示BatchNorm层; PWConv表示逐点卷积; δ表示 Relu激活函数, X表示初始融合特 征。 10.根据权利要求9所述的场景文本检测系统, 其特征在于, 将全局特征通道注意力与 局部特征通道注意力进行加和后, 再对其进 行激活后与 原始图像的特征图中较大尺寸特征 图进行逐元素相乘, 获取目标 特征图的计算公式如下: 其中, X'表示目标特征图; 表示注意力权重; P表示原始图像的特征图中 较大尺寸特征图; σ 表 示Sigmoid激活函数; g(X)表 示全局特征通道注 意力; L(X)表 示局部特 征通道注意力。权 利 要 求 书 2/2 页 3 CN 114926826 A 3

PDF文档 专利 场景文本检测系统

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 场景文本检测系统 第 1 页 专利 场景文本检测系统 第 2 页 专利 场景文本检测系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:06:46上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。