安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221049780 0.3 (22)申请日 2022.05.09 (71)申请人 江苏环途智能科技有限公司 地址 213000 江苏省常州市武进区常武中 路18-3号常州科教城科教会堂B座 2419 (72)发明人 张民航 张龙龙 李绍明 王英轩  缪湾湾 黄健  (74)专利代理 机构 北京盛凡佳华专利代理事务 所(普通合伙) 11947 专利代理师 吴佳佳 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 40/211(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种面向社交群的智能助手问答方法 (57)摘要 本发明公开了一种面向社交群的智能助手 问答方法, 具体包括问句识别方法和问答匹配方 法两个步骤, 问句识别方法包括基于规则的问句 识别方法和基于深度学习的问句识别方法, 基于 规则的问句识别方法包括显性特征、 是规则与否 规则, 基于规则的问句识别的基本思路包括: (1) 含有显性特征 “吗”、“?”、“么”、“不”、“没”的句子 直接被判定为问句; (2)通过是规则集初步判断 候选问句集; (3)使用否规则集过滤候选问句集, 得到最终问句集。 本发明涉及信息化技术领域, 具体提供了一种使智能助手可以自动发现用户 问题并回答问题, 解决了传统社交群智能助手只 能被动等待命令却难以主动服务的问题的面向 社交群的智能助手问答方法。 权利要求书2页 说明书8页 附图2页 CN 114911903 A 2022.08.16 CN 114911903 A 1.一种面向社交群的智能助手问答方法, 其特征在于, 具体包括问句识别方法和问答 匹配方法两个步骤, 所述问句识别方法包括基于规则的问句识别方法和基于深度学习的问 句识别方法, 所述基于规则的问句识别方法包括显性特征、 是规则与否规则, 所述基于规则 的问句识别的基本思路包括: (1)含有包括吗、 ? 、 么、 不、 没在内的显性特征的句子直接被判 定为问句; (2)通过是规则集初步判断候选问句集; (3)使用否规则集过滤候选问句集, 得到 最终问句集, 所述基于深度学习的问句识别方法包括基于CNN的问句识别 方法和基于LSTM 的问句识别方法, 所述基于深度学习的问句识别方法将问句识别视为二分类任务, 使用有 监督学习的方式, 分别训练CNN模型和LSTM模型预测待识别句子, 以0.5为阈值将大于此值 的句子判定为问句, 反 之为非问句。 2.根据权利要求1所述的一种面向社交群的智能助手问答方法, 其特征在于, 所述问句 识别方法采用基于规则的问句识别方法和基于深度学习的问句识别方法结合进行问句识 别, 该结合方式并非将两种方法融合为第三种方法再进行问句识别, 而是 由两类方法分别 预测出候选问句集, 取两个候选集的并集作为最终预测结果, 具体结合方式如下: (1)由基 于规则的问句识别方法预测出候选问句集Can_1; (2)由CNN模型或LSTM模型预测出候选问 句集Can_2; (3)对Can_1和Can_2取并集Can, 以此作为 最终识别结果。 3.根据权利要求2所述的一种面向社交群的智能助手问答方法, 其特征在于, 所述是规 则包括符号特征、 句尾词特征、 特征词特征、 句法特征、 特征词词序特征、 固定短语特征、 用 语习惯特 征和句长特 征; 所述符号特 征, 即句尾是包 含有问号; 所述句尾词特 征, 即句尾包括吗、 么、 没、 不特 征; 所述特征词特征, 即句中包括什么、 谁、 哪、 怎么、 多少、 几、 咋、 哪个、 哪里、 请问、 谁家、 怎么样、 咋样、 为什么、 如何、 什么样、 多久、 怎么办、 哪些、 哪家、 哪位、 多大、 多长、 多宽、 多 高、 多远、 多重和多快; 所述句法特 征, 即句中包括特 征词的句法标记和其下一级依赖词的句法标记; 所述特征词词序特征, 是指句首和句尾特征, 所述句法特征与特征词词序特征配合使 用; 所述固定短语特征, 即指仅凭特征词还无法直接判断一个句子是否为问句, 但是当特 征词与某些词形成搭配短语时, 基本可以断定一个句子为问句; 所述用语习惯特征用于对一些来自局部地区的文本特别是口语化较重的文本进行问 句识别, 所述用语习惯或为句式特 征或为短语特 征; 所述句长特征指通过对显性的问句的统计, 适当估计问句的长度, 以此筛选掉过长的 句子, 从而提升问句识别的精度, 句长特征的判断标准为使被问者清楚地了解自己的意图, 提问者通常会用较为简洁的语言描述问题, 这 也使得问句文本一般较短。 4.根据权利要求3所述的一种面向社交群的智能助手问答方法, 其特征在于, 所述否规 则包括固定搭配和否 定特征词两类特 征。 5.根据权利要求1所述的一种面向社交群的智能助手问答方法, 其特征在于, 所述问答 匹配方法结合社交群场景 的特点, 具体为基于孪生网络的问答匹配方法, 该方法分三步完 成, 第一步从当前聊天内容中去除问句部分, 剩余部分作为候选答案; 第二步使用孪生Bi ‑ LSTM模型Twm网络对问题和候选答案进行匹配打分; 第三步结合回答顺序对第二步的打分权 利 要 求 书 1/2 页 2 CN 114911903 A 2结果进行ReRan k。 6.根据权利要求5所述的一种面向社交群的智能助手问答方法, 其特征在于, 所述孪生 Bi‑LSTM模型Twm网络, 包含五层, 自底向上依次是输入层、 嵌入层、 双向LSTM层、 问答相似度 计算层和损失计算层; 所述孪生Bi ‑LSTM模型Twm网络一部分用于生成问题的特征向量, 另 一部分用于生成正反例的特 征向量。 7.根据权利要求6所述的一种面向社交群的智能助手问答方法, 其特征在于, 所述输入 层每次接受两个输入, 一个输入 是问句, 另一个输入是候选答案句子, 所述候选答案句子包 括正例或负例, 问题和正例是重复使用的, 以便与负例数目配平。 8.根据权利要求7所述的一种面向社交群的智能助手问答方法, 其特征在于, 所述嵌入 层负责将输入层的候选答案句 子表征为句 子向量, 以便映射到语义空间, 句 子向量由句 子 中的词对应的词向量相加后除以词数得到, 词向量使用了基于中文维基百科预训练的词向 量。 9.根据权利要求8所述的一种面向社交群的智能助手问答方法, 其特征在于, 所述双向 LSTM层通过共享权重实现权重一致, 以保证对问句和正例或反例进行同样的特征提取, 问 题和正例或反例通过 该层后将被表示 为两个特 征向量, 进入下一层计算相似度。 10.根据权利要求9所述的一种面向社交群的智能助手问答方法, 其特 征在于, 所述问答相似度计算层也是实质上的输出层, 实际使用模型时所需的即是该层计算的 相似度, 以上一层输出 的两个特征向量的余弦距离来衡量问题与正例或反例的相似度, 并 以此作为TwM对候选答案的打 分, 记为D_score, 0 ≤D_score≤1, 其计算方式如下: D_score=cos(a,q)    (1) 其中, a是候选答案经LSTM层输出的向量, q是问题经LSTM层输出的向量; 以D_score的打分直接排序作为基本排序, 记为Rank, 在此基础 上结合候选答案顺序进 行二次打分排序, 记为Re_rank, 二次打分得分记为Re_score。 基本原则有二: (1)候选答案 的次序距离问题越近, 其成为答案的可能性越高; (2)候选答案的次序距离问题越近, 其在 二次打分中得到的增幅越大; 所述Re_score的计算方式如下: Re_score=D_score*(1+λ )ord   (2) 此计算方式对各个候选答案的增幅随次序呈指数级变化, 上式中λ为基本增幅, λ一般 取0~0.1, ord为窗口中各候选答案 到窗口底端的次序。权 利 要 求 书 2/2 页 3 CN 114911903 A 3

.PDF文档 专利 一种面向社交群的智能助手问答方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向社交群的智能助手问答方法 第 1 页 专利 一种面向社交群的智能助手问答方法 第 2 页 专利 一种面向社交群的智能助手问答方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:47:47上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。