安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210223886.0 (22)申请日 2022.03.09 (71)申请人 湖南兴盛 优选网络科技有限公司 地址 410205 湖南省长 沙市高新 开发区青 山路662号芯城科技园二期1号栋802 房 (72)发明人 高航 胡毅 曹梦华  (74)专利代理 机构 长沙大珂知识产权代理事务 所(普通合伙) 4323 6 专利代理师 姚弘奕 (51)Int.Cl. G06F 16/31(2019.01) G06F 16/953(2019.01) G06F 40/194(2020.01) G06F 40/216(2020.01)G06F 40/279(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于语义索引的意图识别方法 (57)摘要 本发明公开了基于语义索引的意图识别方 法, 使用搜索语义模型进行训练用户搜索数据; 对搜索引擎产生的日志进行统计, 将日志中历史 Query的出现频次超过一定阈值的历史Query建 立查询和意图的统计条目; 将历史Query输入搜 索语义模型, 获取语义向量; 将语义向量加入统 计条目, 得到语义意图索引; 将在线用户Query输 入搜索语义模型, 获取Query语义向量v; 以在线 用户的v检索语义意图索引, 获取语义意图索引 中与在线Query语义最相近的多条记录及相应的 语义相似度; 计算在线Query的意图识别结果。 本 发明利用语义匹配和统计意图的方法实现意图 识别, 具有更好的泛化性和更高的准确率和召回 率。 权利要求书2页 说明书4页 附图3页 CN 114595305 A 2022.06.07 CN 114595305 A 1.基于语义索引的意图识别方法, 其特 征在于, 包括以下步骤: 使用搜索语义模型进行训练用户搜索数据, 其中训练数据同时包括单个用户的搜索词 序列和单个文档的搜索词序列; 对搜索引擎产生的日志进行统计, 将日志中历史Query的出现频次超过一定阈值的历 史Query建立查询和意图的统计条目; 将历史Query输入搜索语义模型, 获取语义向量; 将语 义向量加入统计条目, 得到语义 意图索引; 将在线用户Query输入搜索语义模型, 获取Query语义向量v; 以在线用户的语义向量v 检索所述语义意图索引, 获取所述语义意图索引中与在线Query语义最相近的多条记录及 相应的语义相似度; 融合检索结果, 计算得到在线Query的意图识别结果。 2.根据权利要求1所述的基于语义索引的意图识别方法, 其特征在于, 所述搜索语义模 型使用Word2vec或FastText的神经网络模型。 3.根据权利 要求1所述的基于语义索引的意图识别方法, 其特征在于, 对Query分词时, 优先使用领域词库, 若没有领域词库, 在通用词库的基础上, 提取词级别的n ‑gram特征。 4.根据权利要求1所述的基于语义索引的意图识别方法, 其特征在于, 所述查询和意图 的统计条目为<qi,intenti>, 其中intenti=*category1:prob1,category2:prob2,…+, 其中 qi为第i条Query, intenti为第i条意图, category1, category2为第1个和第2个 意图, prob1, prob2为第1个和第2个意图的概 率。 5.根据权利要求4所述的基于语义索引的意图识别方法, 其特征在于, 所述语义意图索 引的每条记录形如: <qi,vi,intenti>。 6.根据权利要求1所述的基于语义索引的意图识别方法, 其特征在于, 使用余弦相似度 的方法, 在线用户的语义向量v检索所述语义 意图索引。 7.根据权利要求1所述的基于语义索引的意图识别方法, 其特征在于, 设定相似度阈值 θ, 依此获取与在线Query语义最相 近的k条记录*reci|i=1,2, …k+及相应的语义相似度* simi|i=1,2,…k+。 8.根据权利要求7所述的基于语义索引的意图识别方法, 其特征在于, 根据以下的检索 结果, 计算 最终预测结果: 若检索结果不为空, 结果中相似度最大的记录为r eca, 相似度sima=1, 将该记录的意图 intenta作为最终预测结果; 若检索结果不为空, 且所有相似度均小于1, 通过加权计算得到最终预测结果: 其中k为与在线Query语义 最相近的k条记录; 若检索结果 为空, 将用户输入识别为泛意图Query, 即 没有明确意图的搜索。 9.根据权利要求8所述的基于语义索引的意图识别方法, 其特征在于, 记录所述泛意图 Query的识别次数a、 点击次数b和搜索点击行为次数c, 计算泛意图Query更新 值Qu: 权 利 要 求 书 1/2 页 2 CN 114595305 A 2其中α, β为预设的权重参数, a1和a2为预设的识别次数阈值, b1为预设的点击次数阈 值, 当泛意图Query更新值Qu超过更新阈值Q1时, 所述泛意图Query随着搜索语义模型和统 计意图的周期更新, 添加到所述语义 意图索引中。权 利 要 求 书 2/2 页 3 CN 114595305 A 3

.PDF文档 专利 基于语义索引的意图识别方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于语义索引的意图识别方法 第 1 页 专利 基于语义索引的意图识别方法 第 2 页 专利 基于语义索引的意图识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:49:55上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。