安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210089993.9 (22)申请日 2022.01.25 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 黄子晴 刘坤 丁鑫哲  (74)专利代理 机构 北京市汉坤律师事务所 11602 专利代理师 姜浩然 吴丽丽 (51)Int.Cl. G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/242(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) (54)发明名称 计算机实施的数据挖掘方法、 装置、 电子设 备及存储介质 (57)摘要 本公开提供了一种计算机实施的数据挖掘 方法、 装置、 电子设备及存储介质, 涉及计算机技 术领域, 尤其涉及人工智能和自然语 言处理技术 领域。 实现方案为: 获取目标领域的对话场景下 的用户输入文本数据集和目标领域的实体词典; 识别用户输入文本数据集中的第一问题文本; 提 取第一问题文本中的第一实体词汇; 基于实体词 典, 获取第一实体词汇所对应的第一上位词汇; 用相应于第一上位词汇的词槽替换第一问题文 本中的第一实体词汇, 以获取问题模板; 基于问 题模板和实体词典中与第一上位词汇对应的多 个第二实体词汇, 获取多个扩展问题文本; 基于 多个扩展问题文本和目标领域的文档 库, 获取分 别对应于多个扩展问题文本的多个第一扩展答 案。 权利要求书3页 说明书12页 附图4页 CN 114490986 A 2022.05.13 CN 114490986 A 1.一种计算机实施的数据 挖掘方法, 所述方法包括: 获取目标领域的对话场景下的用户输入文本数据集和所述目标领域的实体词典, 其 中, 所述实体词典包括多个上位词汇, 并且所述多个上位词汇中的每个上位词汇对应多个 实体词汇; 对所述用户输入文本数据集中的用户输入文本数据进行语义分析, 以识别所述用户输 入文本数据集中的第一问题文本; 提取所述第一问题文本中的第一实体词汇; 基于所述实体词典, 获取 所述第一实体词汇所对应的第一上位词汇; 用相应于所述第 一上位词汇的词槽替换所述第 一问题文本 中的所述第 一实体词汇, 以 获取问题模板; 基于所述问题模板和所述实体词典中与 所述第一上位词汇对应的多个第 二实体词汇, 获取多个扩展问题文本; 以及 基于所述多个扩展问题文本和所述目标领域的文档库, 获取分别对应于所述多个扩展 问题文本的多个第一扩展答案, 其中, 所述文档库包括所述目标 领域的多个文档资源。 2.根据权利要求1所述的方法, 其中, 所述基于所述多个扩展问题文本和所述目标领域 的文档库, 获取分别对应于所述多个扩展问题文本的多个第一扩展答案包括: 对所述多个扩展问题文本中的每 个扩展问题文本: 基于该扩展问题文本, 通过全文搜索引擎对所述目标领域的文档库进行检索, 以召回 多个候选段落; 以及 分别将所述多个候选段落中的每个候选段落结合该扩展问题输入自然语言理解模型, 以获取分别由所述多个候选段落中抽取的多个第二扩展答案; 以及 基于所述多个扩展问题文本的每个扩展问题文本的所述多个第 二扩展答案, 获取所述 多个第一扩展答案 。 3.根据权利要求1或2所述的方法, 其中, 所述提取所述第一问题文本中的第一实体词 汇包括: 将所述第一问题文本输入句法依存分析模型, 以获取所述第一问题文本中的多个分 词, 其中, 所述多个分词至少包括所述第一问题文本的主语、 谓语和宾语中的一项; 分别将所述多个分词中的每个分词结合所述第 一问题文本输入词汇重要度分析模型, 以分别获取 所述多个分词中的每 个分词在所述第一问题文本中的重要度得分; 以及 将所述多个分词中的所述重要度得分小于预设阈值的分词筛除, 以获取至少一个第 二 实体词汇。 4.根据权利要求3所述的方法, 其中, 所述提取所述第 一问题文本 中的第一实体词汇还 包括: 将所述至少一个第 二实体词汇中的每个第 二实体词汇输入语法分析模型, 以获取所述 至少一个第二实体词汇中的每 个第二实体词汇的实体 类型; 以及 筛除所述至少一个第二实体词汇中的实体类型与多个预设实体类型均不相同的第二 实体词汇, 以获取至少一个第三实体词汇。 5.根据权利要求3所述的方法, 还 包括: 将所述至少一个第 二实体词汇中的每个第 二实体词汇输入词汇上位分析模型, 以获取权 利 要 求 书 1/3 页 2 CN 114490986 A 2所述至少一个第二实体词汇中的每 个第二实体词汇的第二上位词汇; 以及 响应于所述实体词典中不存在所述第 二上位词汇, 将所述第 二上位词汇以及与所述第 二上位词汇对应的第四实体词汇添加到所述实体词典中。 6.一种计算机实施的数据 挖掘装置, 所述装置包括: 第一获取单元, 被配置为获取目标领域的对话场景下的用户输入文本数据集和所述目 标领域的实体词典, 其中, 所述实体词典包括多个上位词汇, 并且所述多个上位词汇中的每 个上位词汇对应多个实体词汇; 识别单元, 被配置为对所述用户输入文本数据集中的用户输入文本数据进行语义分 析, 以识别所述用户输入文本数据集中的第一问题文本; 提取单元, 被配置为提取所述第一问题文本中的第一实体词汇; 第二获取单元, 被配置为基于所述实体词典, 获取所述第一实体词汇所对应的第一上 位词汇; 替换单元, 被配置为用相应于所述第 一上位词汇的词槽替换所述第 一问题文本 中的所 述第一实体词汇, 以获取问题模板; 第三获取单元, 被配置为基于所述问题模板和所述实体词典中与所述第 一上位词汇对 应的多个第二实体词汇, 获取多个扩展问题文本; 以及 第四获取单元, 被配置为基于所述多个扩展问题文本和所述目标领域的文档库, 获取 分别对应于所述多个扩展问题文本的多个第一扩展答案, 其中, 所述文档库包括所述 目标 领域的多个文档资源。 7.根据权利要求5所述的装置, 其中, 所述第四获取 单元包括: 对所述多个扩展问题文本中的每 个扩展问题文本: 检索子单元, 被配置为基于该扩展问题文本, 通过全文搜索引擎对所述目标领域的文 档库进行检索, 以召回多个候选段落; 第一输入子单元, 被配置为分别将所述多个候选段落中的每个候选段落结合该扩展问 题输入自然语言理解模型, 以获取分别由所述多个候选段落中抽取 的多个第二扩展答案; 以及 获取子单元, 被配置为基于所述多个扩展问题文本的每个扩展问题文本的所述多个第 二扩展答案, 获取 所述多个第一扩展答案 。 8.根据权利要求5或6所述的装置, 其中, 所述 提取单元包括: 第二输入子单元, 被配置为将所述第一问题文本输入句法依存分析模型, 以获取所述 第一问题文本中的多个 分词, 其中, 所述多个分词至少包括所述第一问题文本的主语、 谓语 和宾语中的一项; 第三输入子单元, 被配置为分别将所述多个分词中的每个分词结合所述第 一问题文本 输入词汇重要度分析模型, 以分别获取所述多个分词中的每个分词在所述第一问题文本中 的重要度得分; 以及 第一筛除子单元, 被配置为将所述多个分词中的所述重要度得分小于预设阈值的分词 筛除, 以获取至少一个第二实体词汇。 9.根据权利要求8所述的装置, 其中, 所述 提取单元还包括: 第四输入子单元, 被配置为将所述至少一个第 二实体词汇中的每个第 二实体词汇输入权 利 要 求 书 2/3 页 3 CN 114490986 A 3

PDF文档 专利 计算机实施的数据挖掘方法、装置、电子设备及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 计算机实施的数据挖掘方法、装置、电子设备及存储介质 第 1 页 专利 计算机实施的数据挖掘方法、装置、电子设备及存储介质 第 2 页 专利 计算机实施的数据挖掘方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:45上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。