安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210415330.1 (22)申请日 2022.04.20 (71)申请人 深圳追一科技有限公司 地址 518057 广东省深圳市南 山区粤海街 道科技园社区科苑路8号讯美科技广 场3号楼23A、 23B (72)发明人 洪万里 林仕锋 文博 刘云峰 (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 伍健聪 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/289(2020.01) (54)发明名称 意图挖掘方法、 装置、 计算机设备和存储介 质 (57)摘要 本申请涉及一种意图挖掘方法、 装置、 计算 机设备和存储介质。 该方法包括: 获取前端指定 的待挖掘意图的对话内容和针对对话内容的挖 掘参数; 使用挖掘参数对对话内容进行初步筛 选, 得到多个语句; 若多个语句与通用语料的表 达方式相匹配, 则针对每个语句, 得到对应的保 留通用语义信息的句子向量; 若多个语句与业务 语料的表达方式相匹配, 则针对每个语句, 得到 对应的多个分词, 并根据分词的词向量和对应的 权重得到句子向量; 根据多个语句所属话题的话 题范围特征, 选择对应的聚类算法对多个语句所 对应的句子向量进行聚类; 基于聚类结果得到针 对对话内容的意图。 采用本方法能够提高意图挖 掘效率。 权利要求书2页 说明书11页 附图6页 CN 115017306 A 2022.09.06 CN 115017306 A 1.一种意图挖掘方法, 其特 征在于, 所述方法包括: 获取前端指定的待挖掘意图的对话内容和针对所述对话内容的挖掘参数; 使用所述挖掘参数对所述对话内容进行初步筛 选, 得到多个 语句; 若所述多个语句与通用语料的表达方式相匹配, 则针对每个语句, 得到对应的保留通 用语义信息的句子向量; 若所述多个语句与业务语料的表达方式相匹配, 则针对每个语句, 得到对应的多个分 词, 并根据所述分词的词向量和对应的权 重得到句子向量; 根据所述多个语句所属话题的话题范围特征, 选择对应的聚类算法对多个语句所对应 的句子向量进行聚类; 基于聚类结果得到针对所述对话内容的意图。 2.根据权利要求1所述的方法, 其特征在于, 所述若所述多个语句与通用语料的表达方 式相匹配, 则针对每 个语句, 得到对应的保留通用语义信息的句子向量包括: 若所述多个语句与通用语料的表达方式相匹配, 则针对每个语句, 将所述语句输入至 语言向量化模型以得到保留通用语义信息的句 子向量; 其中, 所述语言向量化模型是使用 所述通用语料进行训练的。 3.根据权利要求1所述的方法, 其特征在于, 所述分词包括非关键词和关键词; 所述根 据所述分词的词向量和对应的权 重得到句子向量包括: 根据所述关键词的词向量和所述非关键词的词向量分别按照相应的权重进行加权计 算得到句子向量; 其中, 所述关键词的权 重大于所述非关键词的权 重。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述多个语句所属话题的话题特 征, 选择对应的聚类算法对多个 语句所对应的句子向量进行聚类包括: 确定所述多个 语句所属话题的话题范围特 征; 若所述话题范围特征所表征的话题范围满足第 一条件, 则使用基于密度的聚类算法对 多个所述句子向量进行聚类; 若所述话题范围特征表征的话题范围满足第 二条件, 则使用基于划分的聚类算法对多 个所述句子向量进行聚类; 所述第二条件所表征的话题范围大于所述第一条件所表征的话 题范围。 5.根据权利要求1所述的方法, 其特征在于, 所述基于聚类结果得到针对所述对话内容 的意图包括: 确定聚类结果中各个 类簇中的句子向量的数量; 根据所述各个 类簇各自对应的句子向量的数量对所述多个 类簇进行排序; 根据排序结果选取排名靠前的多个目标类簇; 基于所述多个目标类簇得到针对所述对话内容的意图。 6.根据权利要求1至5中任一项所述的方法, 其特征在于, 所述基于聚类结果得到针对 所述对话内容的意图包括: 针对聚类结果中的类簇, 确定所述类簇中各句子向量和中心句子向量之间的距离; 基于所述距离, 从所述类簇中选取至少一个目标句子向量; 基于所述至少一个目标句子向量确定针对所述对话内容的意图。 7.一种意图挖掘装置, 其特 征在于, 所述装置包括:权 利 要 求 书 1/2 页 2 CN 115017306 A 2预处理模块, 用于获取前端指定的待挖掘意图的对话内容和针对所述对话内容的挖掘 参数; 使用所述挖掘参数对所述对话内容进行初步筛 选, 得到多个 语句; 向量获取模块, 用于若所述多个语句与通用语料的表达方式相匹配, 则针对每个语句, 得到对应的保留通用语义信息的句子向量; 若所述多个语句与业务语料的表达方式相匹 配, 则针对每个语句, 得到对应的多个分词, 并根据所述分词的词向量和对应的权重得到句 子向量; 聚类模块, 用于根据所述多个语句所属话题的话题范围特征, 选择对应的聚类算法对 多个语句所对应的句子向量进行聚类; 意图确定模块, 用于基于聚类结果得到针对所述对话内容的意图。 8.一种计算机设备, 包括存储器和处理器, 所述存储器存储有计算机程序, 其特征在 于, 所述处 理器执行所述计算机程序时实现权利要求1至 6中任一项所述的方法的步骤。 9.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被 处理器执行时实现权利要求1至 6中任一项所述的方法的步骤。 10.一种计算机程序产品, 包括计算机程序, 其特征在于, 该计算机程序被处理器执行 时实现权利要求1至 6中任一项所述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115017306 A 3
专利 意图挖掘方法、装置、计算机设备和存储介质
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:50:30
上传分享
举报
下载
原文档
(804.2 KB)
分享
友情链接
GB-T 43044-2023 数码照相机 规格指南.pdf
专利 一种安全编排和自动化响应方法.PDF
T-WAPIA 045.1—2021 信息技术 系统间远程通信和信息交换 原子密钥建立与实体鉴别 第1部分:服务和协议.pdf
T-SHJNXH 0008—2021 镁基氢化物固态储运氢系统技术要求.pdf
LY-T 1738-2020 实木复合地板用胶合板.pdf
GA-T 1735.1-2020 网络安全等级保护检查工具技术规范 第1部分:安全通用检查工具.pdf
GB-T 33817-2017 铜及铜合金管材内表面碳含量的测定方法.pdf
NB-T 10488-2021 水电工程砂石加工系统设计规范.pdf
GB-T 26145-2010 排污阀.pdf
NY-T 2539-2014 农村土地承包经营权确权登记数据库规范.pdf
T-CDJC 003—2022 交联聚乙烯卷材浮筑楼板隔声保温系统应用技术标准.pdf
GB-T 38647.1-2020 信息技术 安全技术 匿名数字签名 第1部分:总则.pdf
DB35-T 1940-2020 旱地改造水田技术规范 福建省.pdf
GA-T 460.1-2020 居民身份证卡体材料及打印薄膜技术规范 第1部分:制卡用垫平层白色PETG薄膜.pdf
资产管理制度.pdf
OWASP-Top-10-for-LLMs-2023-v05.pdf
GB T 27930.2 -XXXX 电动汽车非车载传导式充电机与车辆之间的数字通信协议 第2部分 Chaojix系统.pdf
GB 7260.3-2003 不间断电源设备(UPS) 第3部分:确定性能的方法和试验要求.pdf
易观分析 AIGC产业研究报告2023——语言生成篇pdf.pdf
GB-T 6946-2008 钢丝绳铝合金压制接头.pdf
1
/
3
20
评价文档
赞助2.5元 点击下载(804.2 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。