(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111521511.4
(22)申请日 2021.12.13
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 夏琦 黄昉 史亚冰 蒋烨
柴春光 朱勇
(74)专利代理 机构 北京市铸成律师事务所
11313
代理人 皇甫韵啸 王云红
(51)Int.Cl.
G06F 40/253(2020.01)
G06F 40/284(2020.01)
G06F 40/268(2020.01)
G06F 16/35(2019.01)G06K 9/62(2022.01)
G06N 20/00(2019.01)
G06N 7/02(2006.01)
G06F 16/332(2019.01)
G06F 16/33(2019.01)
G06F 16/338(2019.01)
(54)发明名称
文本分析方法、 装置、 设备及计算机存储介
质
(57)摘要
本公开提供了文本分析方法、 装置、 设备及
计算机存储介质, 计算机技术领域, 尤其涉及大
数据、 NLP、 智能搜索、 知 识图谱、 深度学习等人工
智能领域。 具体实现方案为: 对待分析文本的词
语进行属性解析, 获得属性解析结果; 对所述词
语之间的语 法依存关系进行解析, 获得依存关系
解析结果; 根据所述属性解析结果和所述依存关
系解析结果, 确定所述待分析文本中的主体和所
述主体的描述语。 本公开实施例能够提高文本分
析的准确性。
权利要求书3页 说明书11页 附图6页
CN 114186552 A
2022.03.15
CN 114186552 A
1.一种文本分析 方法, 包括:
对待分析文本的词语进行属性 解析, 获得属性 解析结果;
对所述词语之间的语法依存关系进行解析, 获得依存关系解析 结果;
根据所述属性解析结果和所述依存关系解析结果, 确定所述待分析文本 中的主体和所
述主体的描述语。
2.根据权利要求1所述的方法, 其中, 所述对待分析文本的词语进行属性解析, 获得属
性解析结果, 包括:
确定每个所述词语的属性;
针对每个所述词语, 确定所述词语在所述属性下的子分类;
将所有所述词语的属性和子分类, 作为所述属性 解析结果。
3.根据权利要求1或2所述的方法, 其中, 所述对所述词语之间的语法依存关系进行解
析, 获得依存关系解析 结果, 包括:
根据所述待分析文本, 获得 所述词语之间的语法依存关系;
根据所述语法依存关系, 获得主体候选项和所述主体的描述语候选项;
选择至少一个所述主体候选项和至少一个所述主体的描述语候选项, 组成主体与主体
的描述语组合项;
将所述主体与所述主体的描述语组合项作为所述依存关系解析 结果。
4.根据权利要求3所述的方法, 其中, 所述选择至少一个主体候选项和至少一个主体的
描述语候选项, 组成主体与主体的描述语组合项, 包括:
获得由所有所述主体候选项, 结合所述主体的描述语候选项所组成的组合;
将所述组合项作为所述主体与主体的描述语组合项。
5.根据权利要求3或4所述的方法, 其中, 在所述待分析文本中包括设定关键词的情况
下, 所述根据所述语法依存关系, 获得主体候选项和主体的描述语候选项, 包括:
在所述待分析文本中, 确定与设定关键词存在预设先后顺序的候选词语;
根据所述 候选词语, 确定所述主体候选项或主体的描述语候选项中的至少一个。
6.根据权利要求3 ‑5中任意一项所述的方法, 其中, 在所述待分析文本中存在由至少两
个设定词性的词语按照预设顺序 组合成的词组的情况下, 所述根据所述语法依存关系, 获
得主体候选项和主体的描述语候选项, 包括:
将所述词组拆分, 获得拆分词语;
根据拆分词语, 确定所述主体候选项和主体的描述语候选项中的至少一个。
7.根据权利要求6所述的方法, 其中, 所述至少两个设定词性的词语包括设定词性的起
始词、 和设定词性的终止词, 所述起始词和所述终止词在所述待分析文本中的字数距离或
词数距离处于设定范围。
8.根据权利要求3 ‑7中任意一项所述的方法, 其中, 在所述待分析文本中存在实体词的
情况下, 所述根据所述语法依存关系, 获得主体候选项和主体的描述语候选项, 包括:
将所述实体词作为所述主体候选项;
根据所述主体候选项和设定模式, 确定所述主体的描述语候选项, 所述设定模式包括
主体、 主体的描述语和其它设定词语, 以及所述主体、 主体的描述语和其它设定词语之 间的
相对顺序。权 利 要 求 书 1/3 页
2
CN 114186552 A
29.根据权利要求8所述的方法, 其中, 所述将所述实体词作为所述主体候选项, 包括:
在所述待分析文本 中包括两个以上顺序衔接的同类实体的情况下, 将所述两个以上顺
序衔接的同类实体合并为所述实体词。
10.一种文本分析装置, 包括:
属性解析结果获得模块, 用于对待分析文本的词语进行属性 解析, 获得属性 解析结果;
依存关系解析结果获得模块, 用于对所述词语之间的语法依存关系进行解析, 获得依
存关系解析 结果;
分析结果模块, 用于根据所述属性解析结果和所述依存关系解析结果, 确定所述待分
析文本中的主体和所述主体的描述语。
11.根据权利要求10所述的装置, 其中, 所述属性 解析结果获得模块包括:
属性确定单 元, 用于确定每 个所述词语的属性;
子分类确定单 元, 用于针对每 个所述词语, 确定所述词语在所述属性下的子分类;
结果单元, 用于将所有所述词语的属性和子分类, 作为所述属性 解析结果。
12.根据权利要求10或1 1所述的装置, 其中, 所述依存关系解析 结果获得模块包括:
语法依存关系获得单元, 用于根据所述待分析文本, 获得所述词语之间的语法依存关
系;
候选项获得单元, 用于根据所述语法依存关系, 获得主体候选项和所述主体的描述语
候选项;
组合项组成单元, 用于选择至少一个所述主体候选项和至少一个所述主体的描述语候
选项, 组成主体与主体的描述语组合项;
依存关系解析结果单元, 用于将所述主体与所述主体的描述语组合项作为所述依存关
系解析结果。
13.根据权利要求12所述的装置, 其中, 所述组合项组成单 元还用于:
获得由所有所述主体候选项, 结合所述主体的描述语候选项所组成的组合;
将所述组合项作为所述主体与主体的描述语组合项。
14.根据权利要求12或13所述的装置, 其中, 在所述待分析文本 中包括设定关键词的情
况下, 所述候选项获得 单元还用于:
在所述待分析文本中, 确定与设定关键词存在预设先后顺序的候选词语;
根据所述 候选词语, 确定所述主体候选项或主体的描述语候选项中的至少一个。
15.根据权利要求12 ‑14中任意一项所述的装置, 其中, 在所述待分析文本中存在由至
少两个设定词性的词语按照预设顺序组合成的词组的情况下, 所述候选项获得单元还用
于:
将所述词组拆分, 获得拆分词语;
根据拆分词语, 确定所述主体候选项和主体的描述语候选项中的至少一个。
16.根据权利要求15所述的装置, 其中, 所述至少两个设定词性的词语包括设定词性的
起始词、 和设定词性的终止词, 所述起始词和所述终止词在所述待分析文本中的字数距离
或词数距离处于设定范围。
17.根据权利要求12 ‑16中任意一项所述的装置, 其中, 在所述待分析文本中存在实体
词的情况 下, 所述候选项获得 单元还用于:权 利 要 求 书 2/3 页
3
CN 114186552 A
3
专利 文本分析方法、装置、设备及计算机存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:22:12上传分享