安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210412537.3 (22)申请日 2022.04.19 (71)申请人 王荣 地址 211300 江苏省南京市高淳县砖墙镇 夹沟村洪户7号 申请人 南京偌伊科技有限公司 (72)发明人 王荣  (74)专利代理 机构 深圳市创富知识产权代理有 限公司 4 4367 专利代理师 潘霞 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/764(2022.01)G06V 10/82(2022.01) G06V 10/80(2022.01) (54)发明名称 一种基于文本和图像的多模态融合的自动 化测试方法 (57)摘要 本发明公开了一种基于文本和图像的多模 态融合的自动化测试方法包括以下步骤: 通过摄 像头获取所进入界面的 图像数据; 通过文本检测 和文本识别模 型获取文本数据; 将图像数据和文 本数据共同送入多模态模型处理, 所述多模态模 型包括用于图像数据处理的卷积层、 最大池化 层, 图像数据经过一层卷积和一层最大池化层后 由Resnet提取图像模态特征, 所述多模态模型还 包括用于文字数据处理的卷积神经网络得到文 本模态特征; 通过多模态模型获得当前图像所对 应标签, 并判断界面是否正确。 本发明通过将文 本模态特征和图像模态特征通过多模态模型进 行多模态的融合, 在自动化测试时, 使得判断是 否进入正确的界面的准确率更高。 权利要求书2页 说明书4页 附图1页 CN 114757287 A 2022.07.15 CN 114757287 A 1.一种基于文本和图像的多模态融合的自动化测试 方法, 其特 征在于: 包括以下步骤: 步骤一: 通过摄 像头获取 所进入界面的图像数据; 步骤二: 通过文本检测 和文本识别模型获取文本数据; 步骤三: 将图像数据和文本数据共 同送入多模态模型处理, 所述多模态模型包括用于 图像数据处理的卷积层、 最大池化层, 图像数据经过一层卷积和一层最大池化层后由 Resnet提取图像模态特征, 所述多模态模 型还包括用于文字数据处理的卷积神经网络得到 文本模态特 征; 步骤四: 通过多模态模型获得当前图像所对应标签, 并判断界面是否正确。 2.根据权利要求1所述的一种基于文本和图像的多模态融合的自动化测试方法, 其特 征在于: 所述步骤三过程中, 具体选用选用Resnet50用于图像的特征提取, 将经过由 Resnet50提取的图像模态特征以及经过卷积神经网络处理得到的文本模态特征送入 Fusion Block融合模块得到融合后的特征层, 最后经过全 连接层Dense以及Softmax函数计 算模型预测的分类结果, Softmax函数将多分类的输出数值转化为相对概率, 更容易理解和 比较。 3.根据权利要求2所述的一种基于文本和图像的多模态融合的自动化测试方法, 其特 征在于: 将经过所述Resnet提取的图像模态特征设为Xi, 经过所述卷积 网络得到的文本模 态特征设为Xt, 并将Xi与Xt作为Fusion  Block融合模块的输入, 然后通过全连接层Dense和 concat拼接的方式将图像和文本两个模态的特征拼接起来, 并引入tanh函数, 再利用add操 作将低级的文本模态特征补充到图像的高级 特征中, 保证了图像模态原始结构特征的完整 性, 计算公式如下: Xtanh=tanh(co ncat(WiXi+bi,WtXt)) Fusion Block融合模块的输出: Xoutput=add(Xtan□*Xi,Xi); 其中, Wi和Wt分别为图像和文本模态经过全连接层Dense后的权重, bi代表偏差, tanh 为激活函数。 4.根据权利要求3所述的一种基于文本和图像的多模态融合的自动化测试方法, 其特 征在于: 所述 步骤二的具体操作方式为: a、 将步骤一获得图像数据送入到文本检测模型获得文本在图像中的坐标 数据; b、 根据坐标数据裁剪出文本图像, 将文本图像送入文本识别模型, 从而预测出新图像 内的所有 文本数据。 5.根据权利要求1~4任一所述的一种基于文本和图像的多模态融合的自动化测试方 法, 其特征在于: 为了 保证模型的测试的准确性, 对多模态模 型进行训练, 其具体方式为: 采 集每个界面的图像, 文本数据, 对每组 图像文本数据标注对应的标签, 并按8: 1: 1划分为训 练集, 验证集和测试集, 训练集数据用于模型训练; 验证集数据用于模型在训练时验证模型 的性能从而观察模型训练效果; 测试集数据用于最终模型的结果评估。 6.根据权利要求5所述的一种基于文本和图像的多模态融合的自动化测试方法, 其特 征在于: 使用交叉熵损失函数作为多模态模型训练时的损失函数, 交叉熵在深度学习中, 可 以看作通过概 率分布q(x)表示 概率分布p(x)的困难程度, 其表达式为:权 利 要 求 书 1/2 页 2 CN 114757287 A 2。 7.根据权利要求6所述的一种基于文本和图像的多模态融合的自动化测试方法, 其特 征在于: 所述将制作的训练集按批次大小循环送入多模态模型进 行训练, 经过n个迭代后完 成训练, 并保存训练好的模型 结构以及权 重。权 利 要 求 书 2/2 页 3 CN 114757287 A 3

.PDF文档 专利 一种基于文本和图像的多模态融合的自动化测试方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于文本和图像的多模态融合的自动化测试方法 第 1 页 专利 一种基于文本和图像的多模态融合的自动化测试方法 第 2 页 专利 一种基于文本和图像的多模态融合的自动化测试方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:33:24上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。