专利 一种基于带权重采样的深度学习算子测试数据生成方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111471772.X (22)申请日 2021.11.30 (71)申请人南京大学地址 210093 江苏省南京市鼓楼区汉口路 22号南京大学软件学院9 25 (72)发明人房春荣　顾明政　刘佳玮　邹英龙　林均劼　陈振宇　 (51)Int.Cl. G06F 11/36(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于带权重采样的深度学习算子测试数据生成方法 (57)摘要一种基于带权重采样的深度学习算子测试数据生成方法，其特征是将一组提前设计的变异方法视作向不同数据取值域的映射，在其中进行预先的蒙特卡罗采样，从而获取各变异方法的有效性并以此为权重进行采样，并最终在兼顾数据多样性的同时更有效地生成深度学习算子测试数据。数据变异方法组合可灵活进行增、删、改，本方法提供的基本变异方法包括：字节、噪声和倒转变异。其中，字节变异指对测试数据的浮点数二进制编码进行字节操作的变异，包括各字节的增加、删除、取反、移位、随机重置；噪声变异是指随机使用各类噪声施加于测试数据；倒转变异是指将测试数据作为分母计算其伪倒数的变异。上述变异基于不同的基本思想，兼顾有效性与多样性。权利要求书2页说明书6页附图2页 CN 114265764 A 2022.04.01 CN 114265764 A 1.一种基于带权重采样的深度学习算子测试数据生成方法，其特征是基于被提前定义的基本变异方法组定义一个变异方法组，并对其中的每一个方法进行预先的蒙特卡罗随机采样，从而获取各变异方法的有效性并进一步评价、精化变异组，最后进行带权重采样，并最终达到在兼顾数据多样性的条件下更有效地生成深度学习算子测试数据的目的。该方法分为以下几个步骤： 1)变异方法定义：本发明预定义了几种变异方法作为基本变异组，实际使用时可根据需要添加、减少、修改变异方法，定义该次实践专属的变异方法组，上述变异方法均属于张量变异方法，区别于传统标量变异； 2)蒙特卡罗随机采样，统计得到每一种变异方法的变异后准确性问题触发成功率：区别于传统标量变异测试，张量变异更复杂，效果更难预测和直接评估，最为直观和合理的方法是通过蒙特卡罗随机采样近似每一种变异方法的成功率； 3)有效性分析：根据蒙特卡罗采样方法的基本思想，将每一种变异方法的变异后准确性问题触发成功率视为其在该算子下的有效性，并对其进行归一化得到采样权重矩阵； 4)变异方法筛选：根据需要对变异方法组中的变异方法进行筛选； 5)带权重采样：根据4.2得到的权重矩阵，进行带权重采样并检查是否成功触发准确性问题。 2.根据权利要求1所述的变异方法定义子过程，其特征在于： 1)预定义了一组基本的变异方法组，该方法组包括：字节变异、噪声变异和倒转变异。其中，字节变异是指对测试数据的浮点数二进制编码进行字节操作的变异，操作包括二进制编码各字节的增加、删除、取反、移位、随机重置，支持float32和float16格式编码；噪声变异是指均匀地随机使用高斯噪声或均匀噪声施加于测试数据；倒转变异是指将测试数据作为分母计算其在取值域内的伪倒数的变异； 2)上述预定义的基本变异方法基于不同的基本思想，如：边界数据更容易引发异常、均匀采样对于小于1的数不利等，经过大量实验证明兼顾有效性与多样性，且目标为张量变异，变异操作较标量变异更复杂、更具统计学特征； 3)基于基本变异方法组，可根据实际需要对其进行扩增、削减和修改，形成新的变异方法组，但需要保证变异方法适用于张量且同时适用于fl oat32和fl oat16格式编码。 3.根据权利要求1所述的蒙特卡罗随机采样子过程，其特征在于： 1)使用均匀随机采样得到种子随机测试用例； 2)对该种子随机测试用例分别施加每一种变异方法并测试变异效果，多次迭代后，统计每一种变异方法的变异后准确性问题触发成功率，保证所有变异方法在随机采样过程中是受到公平对待的，变异后准确性问题触发成功率＝变异后成功触发准确性问题样本数/ 总样本数。 4.根据权利要求1所述的有效性分析子过程，其特征在于： 1)将每一种变异方法的变异后准确性问题触发成功率视为其在该算子下的有效性，对变异方法的有效性进行进一步分析； 2)将每一种变异方法在某算子下的有效性视为在带权重采样中期望使用的比例，通过归一化得到变异方法组的权重矩阵。 5.根据权利要求1所述的变异方法筛选子过程，其特征在于：权　利　要　求　书 1/2 页 2 CN 114265764 A 21)对于一些特殊情况：存在0成功率或反而将成功率大幅降低的变异方法、存在大量成功率与随机方法相差无几的变异方法、应用场景不要求多样性而急需以高成功率进行大量采样等，需要对变异方法组进行进一步筛选； 2)筛选、剔除操作主要包括：筛选出变异组中前K高有效性的变异方法形成新的变异组和剔除变异组中前K低有效性的变异方法形成新的变异组，如有必要，可重新定义变异组并重新进行全套过程； 3)根据变异方法组筛选、剔除或修改的结果，修改有效性矩阵，并重新生成用于带权重采样的权重矩阵。 6.根据权利要求1所述的带权重采样子过程，其特征在于： 1)对权重矩阵从大到小进行排序，同时记录每种变异方法对于的索引，然后在0到其权重总和的区间内进行均匀采样，并找到对应的变异方法，该方法及其前面的变异方法的权重和大于或等于该随机值，且其前面的变异方法的权重和小于该随机值； 2)随机采样得到种子测试数据，将采样得到的变异方法施加于该数据得到最终测试数据并将其输入算子检查是否成功触发准确性问题。权　利　要　求　书 2/2 页 3 CN 114265764 A 3

专利 一种基于带权重采样的深度学习算子测试数据生成方法

专利一种基于带权重采样的深度学习算子测试数据生成方法