安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111471772.X (22)申请日 2021.11.30 (71)申请人 南京大学 地址 210093 江苏省南京市 鼓楼区汉口路 22号南京大学软件学院9 25 (72)发明人 房春荣 顾明政 刘佳玮 邹英龙  林均劼 陈振宇  (51)Int.Cl. G06F 11/36(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于带权重采样的深度学习算子测试 数据生成方法 (57)摘要 一种基于带权重采样的深度学习算子测试 数据生成方法, 其特征是将一组提前设计的变异 方法视作向不同数据取值域的映射, 在其中进行 预先的蒙特卡罗采样, 从而获取各变异方法的有 效性并以此为权重进行采样, 并最终在兼顾数据 多样性的同时更有效地生成深度学习算子测试 数据。 数据变异方法组合可灵活进行增、 删、 改, 本方法提供的基本变异方法包括: 字节、 噪声和 倒转变异。 其中, 字节变异指对测试数据的浮点 数二进制编码进行字节操作的变异, 包括各字节 的增加、 删除、 取反、 移位、 随机重置; 噪声变异是 指随机使用各类噪声施加于测试数据; 倒转变异 是指将测试数据作为分母计算其伪倒数的变异。 上述变异 基于不同的基本思想, 兼顾有效性与多 样性。 权利要求书2页 说明书6页 附图2页 CN 114265764 A 2022.04.01 CN 114265764 A 1.一种基于带权重采样的深度学习算子测试数据生成方法, 其特征是基于被提前定义 的基本变异方法组定义一个变异方法组, 并对其中的每一个方法进行预先的蒙特卡罗随机 采样, 从而获取各变异方法的有效性并进一步评价、 精化变异组, 最后进行带权重采样, 并 最终达到在兼顾数据多样性的条件下更有效地生成深度学习算子测试数据的目的。 该方法 分为以下几个步骤: 1)变异方法定义: 本发明预定义了几种变异方法作为基本变异组, 实 际使用时可根据 需要添加、 减少、 修改变异方法, 定义该次实践专属的变异方法组, 上述变异方法均属于张 量变异方法, 区别于传统标量变异; 2)蒙特卡罗随机采样, 统计得到每一种变异方法的变异后准确性问题触发成功率: 区 别于传统标量变异测试, 张量变异更复杂, 效果更难预测和直接评估, 最为直观和合理的方 法是通过蒙特卡罗随机采样近似每一种变异方法的成功率; 3)有效性分析: 根据蒙特卡罗采样方法的基本思想, 将每一种变异方法的变异后准确 性问题触发成功率视为 其在该算子下的有效性, 并对其进行归一 化得到采样权 重矩阵; 4)变异方法筛 选: 根据需要对变异方法组中的变异方法进行筛 选; 5)带权重采样: 根据4.2得到的权重矩阵, 进行带权重采样并检查是否成功触发准确性 问题。 2.根据权利要求1所述的变异方法定义子过程, 其特 征在于: 1)预定义了一组基本的变异方法组, 该方法组包括: 字节变异、 噪声变异和倒转变异。 其中, 字节变异是指对测试数据的浮点数二进制编码进行字节操作的变异, 操作包括二进 制编码各字节的增加、 删除、 取反、 移位、 随机重置, 支持float32和float16格式编码; 噪声 变异是指均匀地随机使用高斯噪声或均匀噪声施加于测试数据; 倒转变异是指将测试数据 作为分母计算 其在取值 域内的伪倒数的变异; 2)上述预定义的基本变异方法基于不同的基本思想, 如: 边界数据更容易引发异常、 均 匀采样对于小于1的数不利等, 经过大量实验证明兼顾有效性与多样性, 且目标为张量变 异, 变异操作较标量变异更复杂、 更 具统计学 特征; 3)基于基本变异方法组, 可根据实际需要对其进行扩增、 削减和修改, 形成新的变异方 法组, 但需要保证 变异方法适用于张量且同时适用于fl oat32和fl oat16格式编码。 3.根据权利要求1所述的蒙特卡罗随机采样子过程, 其特 征在于: 1)使用均匀随机采样得到种子随机测试用例; 2)对该种子随机测试用例分别施加每一种变异方法并测试变异效果, 多次迭代后, 统 计每一种变异方法的变异后准确性问题触发成功 率, 保证所有变异方法在随机采样过程中 是受到公平对待的, 变异后准确性问题触发成功率=变异后 成功触发准确 性问题样本数/ 总样本数。 4.根据权利要求1所述的有效性分析子过程, 其特 征在于: 1)将每一种变异方法的变异后准确性问题触发成功率视为其在该算子下的有效性, 对 变异方法的有效性进行进一 步分析; 2)将每一种变异方法在某算子下的有效性视为在带权重采样中期望使用的比例, 通过 归一化得到变异方法组的权 重矩阵。 5.根据权利要求1所述的变异方法筛 选子过程, 其特 征在于:权 利 要 求 书 1/2 页 2 CN 114265764 A 21)对于一些特殊情况: 存在0成功率或反而将 成功率大幅降低的变异方法、 存在大量成 功率与随机方法相差无几的变异方法、 应用场景不要求多样性而急需以高成功 率进行大量 采样等, 需要对变异方法组进行进一 步筛选; 2)筛选、 剔除操作主要包括: 筛选出变异组中前K高有效性的变异方法形成新的变异组 和剔除变异组中前K低有效性的变异方法形成新的变异组, 如有必 要, 可重新定义变异组并 重新进行全套过程; 3)根据变异方法组筛选、 剔除或修改的结果, 修改有效性矩阵, 并重新生成用于带权重 采样的权 重矩阵。 6.根据权利要求1所述的带权 重采样子过程, 其特 征在于: 1)对权重矩阵从大到小进行排序, 同时记录每种变异方法对于的索引, 然后在0到其权 重总和的区间内进行均匀采样, 并找到对应的变异方法, 该方法及其前面的变异方法的权 重和大于或等于该随机值, 且其前面的变异方法的权 重和小于该随机值; 2)随机采样得到种子测试数据, 将采样得到的变异方法施加于该数据 得到最终测试数 据并将其输入算子检查是否成功触发准确性问题。权 利 要 求 书 2/2 页 3 CN 114265764 A 3

.PDF文档 专利 一种基于带权重采样的深度学习算子测试数据生成方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于带权重采样的深度学习算子测试数据生成方法 第 1 页 专利 一种基于带权重采样的深度学习算子测试数据生成方法 第 2 页 专利 一种基于带权重采样的深度学习算子测试数据生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。