(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210398191.6
(22)申请日 2022.04.15
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518044 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 罗锦文 郭伟东
(74)专利代理 机构 北京同达信恒知识产权代理
有限公司 1 1291
专利代理师 朱佳
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06F 16/953(2019.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
内容检索及模型训练方法、 装置、 电子设备
和存储介质
(57)摘要
本申请涉及计算机技术领域, 尤其涉及一种
内容检索及模型训练方法、 装置、 电子设备和存
储介质, 用以提高内容检索的准确性。 其中, 方法
包括: 基于训练样本集合对待训练的内容检索模
型进行循环迭代训练, 输出目标内容检索模型;
在一次循环迭代过程中: 将选取的训练样本分别
输入待训练的内容检索模型中的交互式网络和
对偶式网络, 分别获得样本内容针对相应样本标
题的第一预测关联度和第二预测关联度; 基于第
一预测关联度和对应的内容标签 之间的差异, 对
交互式网络进行参数调整, 基于第二预测关联度
和对应的第一预测关联度之间的差异, 对对偶式
网络进行参数调整。 本申请利用精度更高的交互
式网络对对偶式网络进行辅助训练, 可有效提高
内容检索准确性。
权利要求书3页 说明书24页 附图11页
CN 115114395 A
2022.09.27
CN 115114395 A
1.一种内容检索模型训练方法, 其特 征在于, 该 方法包括:
基于训练样本集合对待训练 的内容检索模型进行循环迭代训练, 输出相应的目标内容
检索模型; 每个训练样本包括: 样本内容及其与相应样本标题之间的实际关联度; 其中, 在
一次循环迭代过程中, 执 行以下操作:
将选取的训练样本分别输入所述待训练的内容检索模型中的交互式网络和对偶式网
络, 分别获得所述样本内容针对相 应样本标题的第一预测关联度, 以及所述样本内容针对
相应样本标题的第二预测关联度;
基于所述第 一预测关联度和对应的内容标签之间的差异, 对所述交互式网络进行参数
调整, 以及, 基于所述第二预测关联度和对应的第一预测关联度之 间的差异, 对 所述对偶式
网络进行参数调整。
2.如权利要求1所述的方法, 其特征在于, 在一次训练迭代过程中选取的训练样本为:
由至少三个训练样本组成的训练样本组; 所述训练样本组中的样本内容包括: 对应同一样
本标题的一个正样本内容, 至少一个困难负 样本内容及至少一个简单负 样本内容;
其中, 所述正样本内容为: 与所述样本标题相关联的样本内容; 所述困难负样本内容
为: 与所述样本标题不相关但与所述正样本内容相关的样 本内容; 所述简单负样本内容为:
与所述样本标题不相关且与所述 正样本内容 不相关的样本内容。
3.如权利要求2所述的方法, 其特征在于, 对于两个不同的训练样本组, 其中一个训练
样本组中的正样本内容和困难负样本内容中的至少一个, 为另一个训练样本组中的简单负
样本内容。
4.如权利要求2所述的方法, 其特征在于, 对于一个样本标题, 与所述一个样本标题对
应的困难负 样本内容是通过如下 方式获得的:
将一个样本标题以及各个样本内容分别输入所述对偶式网络, 获得所述一个样本标题
以及所述各个样本内容各自的深度语义特征; 基于各个深度语义特征, 获得所述各个样本
内容各自与所述 一个样本标题之间的第一语义相似度; 以及
将所述各个样本内容与所述一个样本标题, 以第 一输入特征的形式输入所述交互式网
络, 获得所述各个样本内容各自与所述一个样本标题之间的第二语义相似度, 每个第一输
入特征为所述 一个样本标题和一个样本内容 拼接得到的;
基于各个样本 内容对应的第 一语义相似度和第 二语义相似度之间的差异, 从所述各个
样本内容中筛 选出至少一个困难负 样本内容。
5.如权利要求2所述的方法, 其特 征在于, 所述方法还 包括:
对所述至少一个困难负 样本内容进行 数据扩充, 获得扩充的困难负 样本内容;
其中, 对于一个困难负 样本内容进行 数据扩充的方式包括以下至少一种:
对于一个困难负 样本内容中的至少一个分词进行同义词替换;
对于一个困难负 样本内容中的至少两个分词进行内容 顺序调整。
6.如权利要求1所述的方法, 其特征在于, 每个训练样本还包括相应样本内容的标注信
息, 所述标注信息是通过 下列方式获得的:
基于已训练的事件分类模型, 分别对各个样本内容进行分类, 获得所述各个样本内容
各自的标注信息, 所述标注信息用于表征 所述样本内容是否为事 件类内容。
7.如权利要求1所述的方法, 其特 征在于, 每 个样本内容是通过如下 方式筛选得到的:权 利 要 求 书 1/3 页
2
CN 115114395 A
2基于已训练的质量评价模型, 对历史内容集的各个历史内容进行质量评估, 获得所述
各个历史内容各自的质量评价 参数;
基于获得的各个质量评价参数, 从所述历史内容集中筛选出多个历史内容, 作为所述
样本内容。
8.如权利要求1~7任一项所述的方法, 其特征在于, 所述基于所述第一预测关联度和
对应的实际关联度之间的差异, 对所述交 互式网络进行参数调整, 包括:
基于所述第一预测关联度和对应的实际关联度之间的差异, 构建交叉熵损失函数;
基于所述交叉熵损失函数, 对所述交 互式网络进行参数调整。
9.如权利要求1~7任一项所述的方法, 其特征在于, 所述基于所述第二预测关联度和
对应的第一预测关联度之间的差异, 对所述对偶式网络进行参数调整, 包括:
基于所述第 二预测关联度和对应的实际关联度之间的差异, 构建对比损失函数, 以及,
基于所述第二预测关联度和对应的第一预测关联度之间的差异, 构建相对熵损失函数;
基于所述对比损失函数和所述相对熵损失函数, 对所述对偶式网络进行参数调整。
10.如权利要求1~7任一项所述的方法, 其特 征在于, 所述方法还 包括:
将当前周期的各个候选内容, 分别输入所述目标内容检索模型中的交互式网络, 获得
所述各个候选内容的深度语义特 征;
基于获得的各个深度语义特 征, 对所述各个候选内容进行聚类, 获得至少一个相似簇;
对于每个相似簇分别执行以下操作: 若一个相似簇和一个历史簇的内容相似度达到第
三阈值, 则将所述一个相似簇与所述一个历史簇进行簇融合, 获得至少一个目标簇, 其中,
所述历史簇是基于历史周期内的各个候选内容的聚类结果确定的。
11.如权利要求1~7任一项所述的方法, 其特 征在于, 所述方法还 包括:
将待检索标题以及各个候选 内容分别输入所述目标内容检索模型中的对偶式网络, 获
得所述各个候选内容与所述待检索标题之间的第一预测关联度;
基于获得的各个第一预测关联度, 从所述各个候选内容中, 筛选出至少两个目标候选
内容;
将所述至少两个目标候选 内容分别与所述待检索标题, 以第 二输入特征的形式输入所
述目标内容检索 模型中的交互式网络, 获得所述至少两个目标候选内容各自与所述待检索
标题之间的第二预测关联度, 每个第二输入特征为所述待检索样本标题和一个目标候选内
容拼接得到的;
基于获得的各个第 二预测关联度, 从所述至少两个目标候选 内容中确定针对所述待检
索标题的目标推荐内容。
12.如权利要求11所述的方法, 其特征在于, 所述基于获得的各个第二预测关联度, 从
所述至少两个目标候选内容中确定针对所述待检索标题的目标推荐内容, 包括:
确定所述至少两个目标候选 内容各自的簇标识, 所述簇标识用于表征目标候选内容所
属的目标簇, 所述目标簇是 预先对各个目标候选内容进行聚类得到的;
将具有相同簇标识的目标候选内容进行去重后, 根据剩余的目标候选 内容各自的第 二
预测关联度, 确定针对所述待检索标题的目标推荐内容。
13.一种内容检索方法, 其特 征在于, 包括:
将当前周期的各个候选内容, 分别输入已训练的目标内容检索模型中的交互式网络,权 利 要 求 书 2/3 页
3
CN 115114395 A
3
专利 内容检索及模型训练方法、装置、电子设备和存储介质
文档预览
中文文档
39 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共39页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:48:17上传分享