专利 内容检索及模型训练方法、装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210398191.6 (22)申请日 2022.04.15 (71)申请人腾讯科技（深圳）有限公司地址 518044 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人罗锦文　郭伟东　 (74)专利代理机构北京同达信恒知识产权代理有限公司 1 1291 专利代理师朱佳 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 16/953(2019.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称内容检索及模型训练方法、装置、电子设备和存储介质 (57)摘要本申请涉及计算机技术领域，尤其涉及一种内容检索及模型训练方法、装置、电子设备和存储介质，用以提高内容检索的准确性。其中，方法包括：基于训练样本集合对待训练的内容检索模型进行循环迭代训练，输出目标内容检索模型；在一次循环迭代过程中：将选取的训练样本分别输入待训练的内容检索模型中的交互式网络和对偶式网络，分别获得样本内容针对相应样本标题的第一预测关联度和第二预测关联度；基于第一预测关联度和对应的内容标签之间的差异，对交互式网络进行参数调整，基于第二预测关联度和对应的第一预测关联度之间的差异，对对偶式网络进行参数调整。本申请利用精度更高的交互式网络对对偶式网络进行辅助训练，可有效提高内容检索准确性。权利要求书3页说明书24页附图11页 CN 115114395 A 2022.09.27 CN 115114395 A 1.一种内容检索模型训练方法，其特征在于，该方法包括：基于训练样本集合对待训练的内容检索模型进行循环迭代训练，输出相应的目标内容检索模型；每个训练样本包括：样本内容及其与相应样本标题之间的实际关联度；其中，在一次循环迭代过程中，执行以下操作：将选取的训练样本分别输入所述待训练的内容检索模型中的交互式网络和对偶式网络，分别获得所述样本内容针对相应样本标题的第一预测关联度，以及所述样本内容针对相应样本标题的第二预测关联度；基于所述第一预测关联度和对应的内容标签之间的差异，对所述交互式网络进行参数调整，以及，基于所述第二预测关联度和对应的第一预测关联度之间的差异，对所述对偶式网络进行参数调整。 2.如权利要求1所述的方法，其特征在于，在一次训练迭代过程中选取的训练样本为：由至少三个训练样本组成的训练样本组；所述训练样本组中的样本内容包括：对应同一样本标题的一个正样本内容，至少一个困难负样本内容及至少一个简单负样本内容；其中，所述正样本内容为：与所述样本标题相关联的样本内容；所述困难负样本内容为：与所述样本标题不相关但与所述正样本内容相关的样本内容；所述简单负样本内容为：与所述样本标题不相关且与所述正样本内容不相关的样本内容。 3.如权利要求2所述的方法，其特征在于，对于两个不同的训练样本组，其中一个训练样本组中的正样本内容和困难负样本内容中的至少一个，为另一个训练样本组中的简单负样本内容。 4.如权利要求2所述的方法，其特征在于，对于一个样本标题，与所述一个样本标题对应的困难负样本内容是通过如下方式获得的：将一个样本标题以及各个样本内容分别输入所述对偶式网络，获得所述一个样本标题以及所述各个样本内容各自的深度语义特征；基于各个深度语义特征，获得所述各个样本内容各自与所述一个样本标题之间的第一语义相似度；以及将所述各个样本内容与所述一个样本标题，以第一输入特征的形式输入所述交互式网络，获得所述各个样本内容各自与所述一个样本标题之间的第二语义相似度，每个第一输入特征为所述一个样本标题和一个样本内容拼接得到的；基于各个样本内容对应的第一语义相似度和第二语义相似度之间的差异，从所述各个样本内容中筛选出至少一个困难负样本内容。 5.如权利要求2所述的方法，其特征在于，所述方法还包括：对所述至少一个困难负样本内容进行数据扩充，获得扩充的困难负样本内容；其中，对于一个困难负样本内容进行数据扩充的方式包括以下至少一种：对于一个困难负样本内容中的至少一个分词进行同义词替换；对于一个困难负样本内容中的至少两个分词进行内容顺序调整。 6.如权利要求1所述的方法，其特征在于，每个训练样本还包括相应样本内容的标注信息，所述标注信息是通过下列方式获得的：基于已训练的事件分类模型，分别对各个样本内容进行分类，获得所述各个样本内容各自的标注信息，所述标注信息用于表征所述样本内容是否为事件类内容。 7.如权利要求1所述的方法，其特征在于，每个样本内容是通过如下方式筛选得到的：权　利　要　求　书 1/3 页 2 CN 115114395 A 2基于已训练的质量评价模型，对历史内容集的各个历史内容进行质量评估，获得所述各个历史内容各自的质量评价参数；基于获得的各个质量评价参数，从所述历史内容集中筛选出多个历史内容，作为所述样本内容。 8.如权利要求1～7任一项所述的方法，其特征在于，所述基于所述第一预测关联度和对应的实际关联度之间的差异，对所述交互式网络进行参数调整，包括：基于所述第一预测关联度和对应的实际关联度之间的差异，构建交叉熵损失函数；基于所述交叉熵损失函数，对所述交互式网络进行参数调整。 9.如权利要求1～7任一项所述的方法，其特征在于，所述基于所述第二预测关联度和对应的第一预测关联度之间的差异，对所述对偶式网络进行参数调整，包括：基于所述第二预测关联度和对应的实际关联度之间的差异，构建对比损失函数，以及，基于所述第二预测关联度和对应的第一预测关联度之间的差异，构建相对熵损失函数；基于所述对比损失函数和所述相对熵损失函数，对所述对偶式网络进行参数调整。 10.如权利要求1～7任一项所述的方法，其特征在于，所述方法还包括：将当前周期的各个候选内容，分别输入所述目标内容检索模型中的交互式网络，获得所述各个候选内容的深度语义特征；基于获得的各个深度语义特征，对所述各个候选内容进行聚类，获得至少一个相似簇；对于每个相似簇分别执行以下操作：若一个相似簇和一个历史簇的内容相似度达到第三阈值，则将所述一个相似簇与所述一个历史簇进行簇融合，获得至少一个目标簇，其中，所述历史簇是基于历史周期内的各个候选内容的聚类结果确定的。 11.如权利要求1～7任一项所述的方法，其特征在于，所述方法还包括：将待检索标题以及各个候选内容分别输入所述目标内容检索模型中的对偶式网络，获得所述各个候选内容与所述待检索标题之间的第一预测关联度；基于获得的各个第一预测关联度，从所述各个候选内容中，筛选出至少两个目标候选内容；将所述至少两个目标候选内容分别与所述待检索标题，以第二输入特征的形式输入所述目标内容检索模型中的交互式网络，获得所述至少两个目标候选内容各自与所述待检索标题之间的第二预测关联度，每个第二输入特征为所述待检索样本标题和一个目标候选内容拼接得到的；基于获得的各个第二预测关联度，从所述至少两个目标候选内容中确定针对所述待检索标题的目标推荐内容。 12.如权利要求11所述的方法，其特征在于，所述基于获得的各个第二预测关联度，从所述至少两个目标候选内容中确定针对所述待检索标题的目标推荐内容，包括：确定所述至少两个目标候选内容各自的簇标识，所述簇标识用于表征目标候选内容所属的目标簇，所述目标簇是预先对各个目标候选内容进行聚类得到的；将具有相同簇标识的目标候选内容进行去重后，根据剩余的目标候选内容各自的第二预测关联度，确定针对所述待检索标题的目标推荐内容。 13.一种内容检索方法，其特征在于，包括：将当前周期的各个候选内容，分别输入已训练的目标内容检索模型中的交互式网络，权　利　要　求　书 2/3 页 3 CN 115114395 A 3

专利 内容检索及模型训练方法、装置、电子设备和存储介质

专利内容检索及模型训练方法、装置、电子设备和存储介质