安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210491668.5 (22)申请日 2022.05.07 (65)同一申请的已公布的文献号 申请公布号 CN 114596312 A (43)申请公布日 2022.06.07 (73)专利权人 中国科学院深圳先进技 术研究院 地址 518055 广东省深圳市南 山区深圳大 学城学苑大道1068号 专利权人 华中科技大 学协和深圳医院 (72)发明人 乔宇 何军军 宋迪平 邹静 周蔚 李英 (74)专利代理 机构 北京市诚辉律师事务所 11430 专利代理师 耿慧敏 成丹(51)Int.Cl. G06T 7/00(2017.01) G06T 19/00(2011.01) G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (56)对比文件 CN 114443899 A,2022.05.06 审查员 王菲 (54)发明名称 一种视频处 理方法和装置 (57)摘要 本发明公开了一种视频处理方法和装置。 该 方法包括: 利用医学影像、 腔镜手术视频和自然 图像三种类型图像, 构建无标签数据集; 以设定 的损失函数最小化为目标预训练迁移学习模型, 该迁移学习模 型包括编码器和解码器, 其中编码 器以针对所述无标签数据集进行序列化变换后 的图像作为输入图像, 学习所述三种类型图像的 通用知识表征, 解码器利用编码器的输出特征获 得重建图像; 将预训练的编码器迁移到视频理解 模型, 以对目标镜腔手术视频中对象进行检测和 分割。 本发明能够处理视频保真盲增强、 视频理 解等多种复杂任务, 并能迁移应用到多种场景。 权利要求书2页 说明书7页 附图3页 CN 114596312 B 2022.08.02 CN 114596312 B 1.一种视频处 理方法, 包括以下步骤: 利用医学影 像、 腔镜手术视频和自然图像三种类型图像, 构建无 标签数据集; 以设定的损失函数最小化为目标预训练迁移学习 模型, 该迁移学习模型包括编码器和 解码器, 其中编码器以针对所述无标签数据集进行序列化变换后的图像作为输入图像, 学 习所述三种类型图像的通用知识 表征, 解码器利用编码器的输出 特征获得重建图像; 将预训练 的编码器迁移到视频理解模型, 以对目标腔镜手术视频中的对象进行检测和 分割。 2.根据权利要求1所述的视频处理方法, 其特征在于, 根据以下步骤预训练所述迁移学 习模型: 利用医学影 像、 腔镜手术视频和自然图像构建包 含多模态图像样本的无 标签数据集; 对于所述无 标签数据集中的图像样本, 进行随机采样和裁 剪, 获得输入图像; 设计自监 督代理任务, 通过对输入图像进行多种变换, 获得序列化变换后的图像; 以所述序列化变换后的图像作为所述编码器的输入, 所述 解码器输出重建图像。 3.根据权利要求2所述的视频处理方法, 其特征在于, 所述编码器的输入根据以下步骤 获得: 对所述无 标签数据集中的图像样本进行随机采样和裁 剪, 得到输入影像X; 以设定的概 率阈值对X进行多种变换, 得到变换后图像 , 该变换过程表示 为: 其中p是随机得到的 之间的浮点数, threshold是设定的概率阈值, transform表 示变换; 将变换后图像 输入所述编码器, 进 而由所述 解码器输出重建图像 。 4.根据权利要求3所述的视频处理方法, 其特征在于, 所述多种变换包括基于分布的变 换、 基于涂画的变换和基于掩码的变换。 5.根据权利要求1所述的视频处理方法, 其特征在于, 所述视频理解模型包括迁移的编 码器、 多尺度特征适配器、 时空多尺度注意力模块、 像素解码器、 跨尺度注意力解码器和多 层感知器, 并执 行以下过程: 对于当前时刻T, 以一定间隔采样前m个时刻的历史信息, 构成含有m+1个视频帧的图像 序列, 所述编码器以图像序列作为输入, 提取不同编码阶段的特征输入所述多尺度特征适 配器, 得到多个时刻的特征金字塔, 随后将特征金字塔多个不同分辨率的特征拉平, 拼接得 到每一个时刻的空间多尺度特 征; 将多个视频帧的多尺度图像特征通过拼接方式进行融合, 并作为所述 时空多尺度注意 力模块的输入, 通过全局与局部自适应时空注意力机制挖掘时空信息, 建模目标对 象的运 动变化, 获得时刻T的时空融合特 征; 将该时空融合特 征输入所述像素解码器, 解码出融合时空信息的特 征金字塔; 所述跨尺度注意力解码器以所述融合时空信息的特征金字塔和可学习的全局嵌入作 为输入, 预测N个物体特征, 并将其输入所述多层感知器, 预测对应的掩模嵌入和实例包围 框与类别, 将所述融合时空信息的特征金字塔特中最高分辨率的特征与掩模嵌入进行卷积权 利 要 求 书 1/2 页 2 CN 114596312 B 2运算, 进而获得时刻T的检测分割结果。 6.根据权利要求1所述的视频处理方法, 其特征在于, 所述迁移学习模型的预训练过程 还包括基于对比学习 范式的自监督学习, 对比学习 范式对应的正样本对包括: 将同模态作 为正样本对; 将具有相同特性的作为正样本对; 将对同图片进行不同数据增强获得 的样本 作为正样本对。 7.根据权利要求1所述的视频处理方法, 其特征在于, 所述损失函数是均方差损失函 数, 反映所述输入图像与所述重建图像之间的损失。 8.根据权利要求1所述的视频处理方法, 其特征在于, 所述迁移学习模型基于转换器 transformer构建。 9.一种视频处 理装置, 包括: 数据获取单元: 用于利用医学影像、 腔镜手术视频和自然图像三种类型图像, 构建无标 签数据集; 预训练单元: 用于以设定的损 失函数最小化为目标预训练迁移学习模型, 该迁移学习 模型包括编 码器和解码器, 其中编 码器以针对所述无标签数据集进行序列化变换后的图像 作为输入图像, 学习 所述三种类型图像的通用知识表征, 解码器利用编码器输出特征获得 重建图像; 迁移学习单元: 用于将预训练的编码器迁移到视频理解模型, 以对目标腔镜手术视频 中对象进行检测 和分割。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其中, 该计算机程序被处理器 执行时实现根据权利要求1至8中任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114596312 B 3
专利 一种视频处理方法和装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 07:35:34
上传分享
举报
下载
原文档
(509.0 KB)
分享
友情链接
DL-T 5175-2021 火力发电厂热工开关量和模拟量控制系统设计规程.pdf
GB-T 36629.3-2018 信息安全技术 公民网络电子身份标识安全技术要求 第3部分:验证服务消息及其处理规则.pdf
GB-T 41269-2022 网络关键设备安全技术要求 路由器设备.pdf
DB13-T 2948-2019 公路桥面铺装层维修设计与施工技术规范 河北省.pdf
GB-T 40652-2021 信息安全技术 恶意软件事件预防和处理指南.pdf
GB T 42447-2023 信息安全技术 电信领域数据安全指南.pdf
GB-T 42920-2023 塑料 纤维增强塑料复合材料耐火特性和防火性能的评定.pdf
GM-T 0024-2014 SSL VPN技术规范.pdf
T-CI 175—2022 智能交通基础设施数字化技术规范.pdf
T-CAQI 225—2021 钢制模块化装配污水处理池体技术要求.pdf
T-CESA 1036—2019 信息技术 人工智能 机器学习模型及系统的质量要素和测试方法.pdf
DB3305-T 216-2021 计量检定、校准数据交互规范 湖州市.pdf
GB-T 33593-2017 分布式电源并网技术要求.pdf
T-CESA 1169—2021 信息技术 人工智能 服务器系统性能测试规范.pdf
GB-T 32926-2016 信息安全技术 政府部门信息技术服务外包信息安全管理规范.pdf
DB52-T 706-2011 杉木二元立木材积生长率表 贵州省.pdf
GB-T 15310.2-2009 国际贸易出口单证格式 第2部分:装箱单.pdf
NY-T 1281-2007 花卉植物真菌病害检测规程.pdf
GB-T 29765-2021 信息安全技术 数据备份与恢复产品技术要求与测试评价方法.pdf
GA 482 《中华人民共和国机动车驾驶证》第2号修改单.pdf
1
/
3
13
评价文档
赞助2.5元 点击下载(509.0 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。