专利 一种基于频域监督的深度学习知识蒸馏方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111484530.4 (22)申请日 2021.12.07 (71)申请人广东机场白云信息科技有限公司地址 510000 广东省广州市白云区新白云国际机场A4 地块二级公司业务楼北楼 (72)发明人万好　韩旭　关华　 (74)专利代理机构北京捷诚信通专利事务所 (普通合伙) 11221 专利代理师万善书 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称一种基于频域监督的深度学习知识蒸馏方法及系统 (57)摘要本发明公开了一种基于频域监督的深度学习知识蒸馏方法及系统，该方法及系统通过训练教师网络，再根据训练好的教师网络设计学生网络，然后，采用相同的待训练样本数据集，通过在频域上让教师网络对学生网络进行监督，可以确保学生网络可以精细化模仿教师网络的边缘特征，从而可以弥补学生网络对于教师网络特征边缘变化比较明显的区域的学习不够理想的缺陷，进而可以达到提升学生网络的性能的目的。同时，本发明实施例提供的技术方案可以应用于各类网络的知识蒸馏，可以实现复杂网络的压缩，有利于实现将轻量化网络部署到移动终端等需求。权利要求书3页说明书13页附图7页 CN 114548362 A 2022.05.27 CN 114548362 A 1.一种基于频域监督的深度学习知识蒸馏方法，其特征在于，包括：获取第一待训练样本数据集和待训练教师网络，并将所述第一待训练样本数据集输入所述待训练教师网络中进行训练直至收敛，获得已训练好的第一教师网络；基于所述第一教师网络，设计学生网络；获取第二待训练样本数据集，并将所述第二待训练样本数据集同时输入所述第一教师网络和所述学生网络中进行傅里叶变换和高斯权重分配处理后，获得所述第一教师网络对应的第一频域特征图和所述学生网络对应的第二频域特征图；基于所述第一频域特征图和所述第二频域特征图，计算频域监督损失；判断所述频域监督损失是否收敛；若所述频域监督损失未收敛，则获取新的待训练样本数据集，将所述新的待训练样本数据集替换为所述第二待训练样本数据集，返回执行将所述第二待训练样本数据集同时输入所述第一教师网络和所述学生网络中进行傅里叶变换和高斯权重分配处理后，获得所述第一教师网络对应的第一频域特征图和所述学生网络对应的第二频域特征图；或者，若所述频域监督损失已收敛，则确定完成知识蒸馏。 2.如权利要求1所述的方法，其特征在于，基于所述第一教师网络，设计学生网络，包括：将所述学生网络的结构框架设计为与所述第一教师网络的结构框架相同，以及将所述学生网络的特征图通道或层数设计少于所述第一教师网络的特征图通道或层数。 3.如权利要求1所述的方法，其特征在于，将所述第二待训练样本数据集同时输入所述第一教师网络和所述学生网络中进行傅里叶变换和高斯权重分配处理后，获得所述第一教师网络对应的第一频域特征图和所述学生网络对应的第二频域特征图，包括：将所述第二待训练样本数据集同时输入所述第一教师网络和所述学生网络中，获得所述第一教师网络对应的第一特征图和所述学生网络对应的第二特征图；对所述第一特征图和所述第二特征图进行傅里叶变换，获得所述第一特征图对应的第三特征图和所述第二特征图对应的第四特征图；按照预设排列方式将所述第三特征图和所述第四特征图中的高频信号和低频信号进行排序并设置权重，获得所述第一频域特征图和所述第二频域特征图。 4.如权利要求3所述的方法，其特征在于，对所述第一特征图和所述第二特征图进行傅里叶变换，获得所述第一特征图对应的第三特征图和所述第二特征图对应的第四特征图，包括：采用二维离散傅里叶变换对所述第一特征图和所述第二特征图进行傅里叶变换，获得所述第三特征图和所述第四特征图。 5.如权利要求 4所述的方法，其特征在于，所述二维离散傅里叶变换遵循以下公式：其中， F(u,v)表示所述第三特征图或所述第四特征图的频域信号， f(x,y)表示所述第一特征图或所述第二特征图上坐标(x,y)处的值， M、 N分别表示所述第一特征图或所述第二特征图的行数和列数， j、 π 为常数。 6.如权利要求3所述的方法，其特征在于，按照预设排列方式将所述第三特征图和所述权　利　要　求　书 1/3 页 2 CN 114548362 A 2第四特征图中的高频信号和低频信号进行排序并设置权重，获得所述第一频域特征图和所述第二频域特征图，包括：生成高斯权重初始图像，所述高斯权重初始图像是中间为白块、四周为黑块的图像；获取高斯滤波权重模板，并采用所述高斯滤波权重模板在所述高斯权重初始图像上进行卷积，获得高斯权重掩模；基于所述高斯权重掩模，将所述第三特征图和所述第四特征图中的高频信号和低频信号进行排序并设置权重，获得所述第一频域特征图和所述第二频域特征图。 7.如权利要求6所述的方法，其特征在于，所述高斯滤波权重模板遵循以下公式：其中，所述高斯滤波权重模板的中心为原点， G(x1,y1)表示所述高斯滤波权重模板中各点的权重， (x1,y1)表示所述高斯滤波权重模板中各点的坐标， σ 为一个标量，其值越大表示高斯滤波权重模板覆盖的范围就越大。 8.如权利要求1 ‑7任一项所述的方法，其特征在于，基于所述第一频域特征图和所述第二频域特征图，计算频域监督损失，包括：基于所述第一频域特征图和所述第二频域特征图，采用损失函数计算所述频域监督损失；所述损失函数表示为：其中，表示为所述第一频域特征图中第i点的值， yi表示为所述第二频域特征图中第 i点的值， n表示为所述第一频域特征图中所有坐标点的个数， n＝W ×H×C， W、 H、 C分别表示为所述第一频域特征图的宽、高、特征图通道数，所述第二频域特征图中所有坐标点的个数与所述第一频域特征图中所有坐标点的个数相同。 9.一种基于频域监督的深度学习知识蒸馏系统，其特征在于，包括：教师网络训练单元，用于获取第一待训练样本数据集和待训练教师网络，并将所述第一待训练样本数据集输入所述待训练教师网络中进行训练直至收敛，获得已训练好的第一教师网络；学生网络设计单元，用于基于所述第一教师网络，设计学生网络；学生网络训练单元，用于：获取第二待训练样本数据集，并将所述第二待训练样本数据集同时输入所述第一教师网络和所述学生网络中进行傅里叶变换和高斯权重分配处理后，获得所述第一教师网络对应的第一频域特征图和所述学生网络对应的第二频域特征图；基于所述第一频域特征图和所述第二频域特征图，计算频域监督损失；判断所述频域监督损失是否收敛；若所述频域监督损失未收敛，则获取新的待训练样本数据集，将所述新的待训练样本数据集替换为所述第二待训练样本数据集，返回执行将所述第二待训练样本数据集同时输入所述第一教师网络和所述学生网络中进行傅里叶变权　利　要　求　书 2/3 页 3 CN 114548362 A 3

专利 一种基于频域监督的深度学习知识蒸馏方法及系统

专利一种基于频域监督的深度学习知识蒸馏方法及系统