安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210412537.3 (22)申请日 2022.04.19 (71)申请人 王荣 地址 211300 江苏省南京市高淳县砖墙镇 夹沟村洪户7号 申请人 南京偌伊科技有限公司 (72)发明人 王荣 (74)专利代理 机构 深圳市创富知识产权代理有 限公司 4 4367 专利代理师 潘霞 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06V 10/80(2022.01) (54)发明名称 一种基于文本和图像的多模态融合的自动 化测试方法 (57)摘要 本发明公开了一种基于文本和图像的多模 态融合的自动化测试方法包括以下步骤: 通过摄 像头获取所进入界面的 图像数据; 通过文本检测 和文本识别模 型获取文本数据; 将图像数据和文 本数据共同送入多模态模型处理, 所述多模态模 型包括用于图像数据处理的卷积层、 最大池化 层, 图像数据经过一层卷积和一层最大池化层后 由Resnet提取图像模态特征, 所述多模态模型还 包括用于文字数据处理的卷积神经网络得到文 本模态特征; 通过多模态模型获得当前图像所对 应标签, 并判断界面是否正确。 本发明通过将文 本模态特征和图像模态特征通过多模态模型进 行多模态的融合, 在自动化测试时, 使得判断是 否进入正确的界面的准确率更高。 权利要求书2页 说明书4页 附图1页 CN 114757287 A 2022.07.15 CN 114757287 A 1.一种基于文本和图像的多模态融合的自动化测试 方法, 其特 征在于: 包括以下步骤: 步骤一: 通过摄 像头获取 所进入界面的图像数据; 步骤二: 通过文本检测 和文本识别模型获取文本数据; 步骤三: 将图像数据和文本数据共 同送入多模态模型处理, 所述多模态模型包括用于 图像数据处理的卷积层、 最大池化层, 图像数据经过一层卷积和一层最大池化层后由 Resnet提取图像模态特征, 所述多模态模 型还包括用于文字数据处理的卷积神经网络得到 文本模态特 征; 步骤四: 通过多模态模型获得当前图像所对应标签, 并判断界面是否正确。 2.根据权利要求1所述的一种基于文本和图像的多模态融合的自动化测试方法, 其特 征在于: 所述步骤三过程中, 具体选用选用Resnet50用于图像的特征提取, 将经过由 Resnet50提取的图像模态特征以及经过卷积神经网络处理得到的文本模态特征送入 Fusion Block融合模块得到融合后的特征层, 最后经过全 连接层Dense以及Softmax函数计 算模型预测的分类结果, Softmax函数将多分类的输出数值转化为相对概率, 更容易理解和 比较。 3.根据权利要求2所述的一种基于文本和图像的多模态融合的自动化测试方法, 其特 征在于: 将经过所述Resnet提取的图像模态特征设为Xi, 经过所述卷积 网络得到的文本模 态特征设为Xt, 并将Xi与Xt作为Fusion Block融合模块的输入, 然后通过全连接层Dense和 concat拼接的方式将图像和文本两个模态的特征拼接起来, 并引入tanh函数, 再利用add操 作将低级的文本模态特征补充到图像的高级 特征中, 保证了图像模态原始结构特征的完整 性, 计算公式如下: Xtanh=tanh(co ncat(WiXi+bi,WtXt)) Fusion Block融合模块的输出: Xoutput=add(Xtan□*Xi,Xi); 其中, Wi和Wt分别为图像和文本模态经过全连接层Dense后的权重, bi代表偏差, tanh 为激活函数。 4.根据权利要求3所述的一种基于文本和图像的多模态融合的自动化测试方法, 其特 征在于: 所述 步骤二的具体操作方式为: a、 将步骤一获得图像数据送入到文本检测模型获得文本在图像中的坐标 数据; b、 根据坐标数据裁剪出文本图像, 将文本图像送入文本识别模型, 从而预测出新图像 内的所有 文本数据。 5.根据权利要求1~4任一所述的一种基于文本和图像的多模态融合的自动化测试方 法, 其特征在于: 为了 保证模型的测试的准确性, 对多模态模 型进行训练, 其具体方式为: 采 集每个界面的图像, 文本数据, 对每组 图像文本数据标注对应的标签, 并按8: 1: 1划分为训 练集, 验证集和测试集, 训练集数据用于模型训练; 验证集数据用于模型在训练时验证模型 的性能从而观察模型训练效果; 测试集数据用于最终模型的结果评估。 6.根据权利要求5所述的一种基于文本和图像的多模态融合的自动化测试方法, 其特 征在于: 使用交叉熵损失函数作为多模态模型训练时的损失函数, 交叉熵在深度学习中, 可 以看作通过概 率分布q(x)表示 概率分布p(x)的困难程度, 其表达式为:权 利 要 求 书 1/2 页 2 CN 114757287 A 2。 7.根据权利要求6所述的一种基于文本和图像的多模态融合的自动化测试方法, 其特 征在于: 所述将制作的训练集按批次大小循环送入多模态模型进 行训练, 经过n个迭代后完 成训练, 并保存训练好的模型 结构以及权 重。权 利 要 求 书 2/2 页 3 CN 114757287 A 3
专利 一种基于文本和图像的多模态融合的自动化测试方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 07:33:24
上传分享
举报
下载
原文档
(468.8 KB)
分享
友情链接
GB-T 42467.5-2023 中医临床名词术语 第5部分:骨伤科学.pdf
GB-T 42926-2023 金融信息系统网络安全风险评估规范.pdf
GB-T 35799-2018 化妆品中吡咯烷酮羧酸钠的测定 高效液相色谱法.pdf
T-CADERM 6006—2023 动态监护与自动生命支持一体机.pdf
GB-T 33041-2016 中国陆地木材腐朽与白蚁危害等级区域划分.pdf
DB43-T 612-2021 医疗机构能耗定额 湖南省.pdf
YD-T 3844-2021 工业互联网平台 应用管理接口要求.pdf
T-CPUMT 010—2022 往复式内燃机电站设计规范.pdf
DB6103-T 23-2020 公共机构节能工作考核规范 宝鸡市.pdf
GM-T 0003.3-2012 SM2椭圆曲线公钥密码算法第3部分:密钥交换协议.pdf
YD-T 4177.8-2023 移动互联网应用程序(APP)收集使用个人信息最小必要评估规范 第8部分:录像信息.pdf
国测 智能网联汽车安全渗透白皮书 2020.pdf
GB-T 31595-2015 公共安全 业务连续性管理体系 指南.pdf
DB31-T 1315-2021 车载毫米波雷达探测性能测试方法 上海市.pdf
GB-T 33172-2016 资产管理 综述、原则和术语.pdf
GB-T 31507-2015 信息安全技术 智能卡通用安全检测指南.pdf
易制爆危险化学品治安管理办法.pdf
GB-T 40665.1-2021 中医四诊操作规范 第1部分:望诊.pdf
YD-T 2701-2014 电信网和互联网安全防护基线配置要求及检测要求-操作系统.pdf
T-CRHA 022—2023 脓毒症诊断与治疗规范.pdf
1
/
3
8
评价文档
赞助2.5元 点击下载(468.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。