安全公司报告
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111521511.4 (22)申请日 2021.12.13 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦2层 (72)发明人 夏琦 黄昉 史亚冰 蒋烨  柴春光 朱勇  (74)专利代理 机构 北京市铸成律师事务所 11313 代理人 皇甫韵啸  王云红 (51)Int.Cl. G06F 40/253(2020.01) G06F 40/284(2020.01) G06F 40/268(2020.01) G06F 16/35(2019.01)G06K 9/62(2022.01) G06N 20/00(2019.01) G06N 7/02(2006.01) G06F 16/332(2019.01) G06F 16/33(2019.01) G06F 16/338(2019.01) (54)发明名称 文本分析方法、 装置、 设备及计算机存储介 质 (57)摘要 本公开提供了文本分析方法、 装置、 设备及 计算机存储介质, 计算机技术领域, 尤其涉及大 数据、 NLP、 智能搜索、 知 识图谱、 深度学习等人工 智能领域。 具体实现方案为: 对待分析文本的词 语进行属性解析, 获得属性解析结果; 对所述词 语之间的语 法依存关系进行解析, 获得依存关系 解析结果; 根据所述属性解析结果和所述依存关 系解析结果, 确定所述待分析文本中的主体和所 述主体的描述语。 本公开实施例能够提高文本分 析的准确性。 权利要求书3页 说明书11页 附图6页 CN 114186552 A 2022.03.15 CN 114186552 A 1.一种文本分析 方法, 包括: 对待分析文本的词语进行属性 解析, 获得属性 解析结果; 对所述词语之间的语法依存关系进行解析, 获得依存关系解析 结果; 根据所述属性解析结果和所述依存关系解析结果, 确定所述待分析文本 中的主体和所 述主体的描述语。 2.根据权利要求1所述的方法, 其中, 所述对待分析文本的词语进行属性解析, 获得属 性解析结果, 包括: 确定每个所述词语的属性; 针对每个所述词语, 确定所述词语在所述属性下的子分类; 将所有所述词语的属性和子分类, 作为所述属性 解析结果。 3.根据权利要求1或2所述的方法, 其中, 所述对所述词语之间的语法依存关系进行解 析, 获得依存关系解析 结果, 包括: 根据所述待分析文本, 获得 所述词语之间的语法依存关系; 根据所述语法依存关系, 获得主体候选项和所述主体的描述语候选项; 选择至少一个所述主体候选项和至少一个所述主体的描述语候选项, 组成主体与主体 的描述语组合项; 将所述主体与所述主体的描述语组合项作为所述依存关系解析 结果。 4.根据权利要求3所述的方法, 其中, 所述选择至少一个主体候选项和至少一个主体的 描述语候选项, 组成主体与主体的描述语组合项, 包括: 获得由所有所述主体候选项, 结合所述主体的描述语候选项所组成的组合; 将所述组合项作为所述主体与主体的描述语组合项。 5.根据权利要求3或4所述的方法, 其中, 在所述待分析文本中包括设定关键词的情况 下, 所述根据所述语法依存关系, 获得主体候选项和主体的描述语候选项, 包括: 在所述待分析文本中, 确定与设定关键词存在预设先后顺序的候选词语; 根据所述 候选词语, 确定所述主体候选项或主体的描述语候选项中的至少一个。 6.根据权利要求3 ‑5中任意一项所述的方法, 其中, 在所述待分析文本中存在由至少两 个设定词性的词语按照预设顺序 组合成的词组的情况下, 所述根据所述语法依存关系, 获 得主体候选项和主体的描述语候选项, 包括: 将所述词组拆分, 获得拆分词语; 根据拆分词语, 确定所述主体候选项和主体的描述语候选项中的至少一个。 7.根据权利要求6所述的方法, 其中, 所述至少两个设定词性的词语包括设定词性的起 始词、 和设定词性的终止词, 所述起始词和所述终止词在所述待分析文本中的字数距离或 词数距离处于设定范围。 8.根据权利要求3 ‑7中任意一项所述的方法, 其中, 在所述待分析文本中存在实体词的 情况下, 所述根据所述语法依存关系, 获得主体候选项和主体的描述语候选项, 包括: 将所述实体词作为所述主体候选项; 根据所述主体候选项和设定模式, 确定所述主体的描述语候选项, 所述设定模式包括 主体、 主体的描述语和其它设定词语, 以及所述主体、 主体的描述语和其它设定词语之 间的 相对顺序。权 利 要 求 书 1/3 页 2 CN 114186552 A 29.根据权利要求8所述的方法, 其中, 所述将所述实体词作为所述主体候选项, 包括: 在所述待分析文本 中包括两个以上顺序衔接的同类实体的情况下, 将所述两个以上顺 序衔接的同类实体合并为所述实体词。 10.一种文本分析装置, 包括: 属性解析结果获得模块, 用于对待分析文本的词语进行属性 解析, 获得属性 解析结果; 依存关系解析结果获得模块, 用于对所述词语之间的语法依存关系进行解析, 获得依 存关系解析 结果; 分析结果模块, 用于根据所述属性解析结果和所述依存关系解析结果, 确定所述待分 析文本中的主体和所述主体的描述语。 11.根据权利要求10所述的装置, 其中, 所述属性 解析结果获得模块包括: 属性确定单 元, 用于确定每 个所述词语的属性; 子分类确定单 元, 用于针对每 个所述词语, 确定所述词语在所述属性下的子分类; 结果单元, 用于将所有所述词语的属性和子分类, 作为所述属性 解析结果。 12.根据权利要求10或1 1所述的装置, 其中, 所述依存关系解析 结果获得模块包括: 语法依存关系获得单元, 用于根据所述待分析文本, 获得所述词语之间的语法依存关 系; 候选项获得单元, 用于根据所述语法依存关系, 获得主体候选项和所述主体的描述语 候选项; 组合项组成单元, 用于选择至少一个所述主体候选项和至少一个所述主体的描述语候 选项, 组成主体与主体的描述语组合项; 依存关系解析结果单元, 用于将所述主体与所述主体的描述语组合项作为所述依存关 系解析结果。 13.根据权利要求12所述的装置, 其中, 所述组合项组成单 元还用于: 获得由所有所述主体候选项, 结合所述主体的描述语候选项所组成的组合; 将所述组合项作为所述主体与主体的描述语组合项。 14.根据权利要求12或13所述的装置, 其中, 在所述待分析文本 中包括设定关键词的情 况下, 所述候选项获得 单元还用于: 在所述待分析文本中, 确定与设定关键词存在预设先后顺序的候选词语; 根据所述 候选词语, 确定所述主体候选项或主体的描述语候选项中的至少一个。 15.根据权利要求12 ‑14中任意一项所述的装置, 其中, 在所述待分析文本中存在由至 少两个设定词性的词语按照预设顺序组合成的词组的情况下, 所述候选项获得单元还用 于: 将所述词组拆分, 获得拆分词语; 根据拆分词语, 确定所述主体候选项和主体的描述语候选项中的至少一个。 16.根据权利要求15所述的装置, 其中, 所述至少两个设定词性的词语包括设定词性的 起始词、 和设定词性的终止词, 所述起始词和所述终止词在所述待分析文本中的字数距离 或词数距离处于设定范围。 17.根据权利要求12 ‑16中任意一项所述的装置, 其中, 在所述待分析文本中存在实体 词的情况 下, 所述候选项获得 单元还用于:权 利 要 求 书 2/3 页 3 CN 114186552 A 3

.PDF文档 专利 文本分析方法、装置、设备及计算机存储介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本分析方法、装置、设备及计算机存储介质 第 1 页 专利 文本分析方法、装置、设备及计算机存储介质 第 2 页 专利 文本分析方法、装置、设备及计算机存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:22:12上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。