(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210463598.2
(22)申请日 2022.04.29
(71)申请人 北京思源智通科技有限责任公司
地址 102425 北京市房山区阎富路69号院
46号楼1至4层101二层07
(72)发明人 李根柱
(74)专利代理 机构 深圳市添源创鑫知识产权代
理有限公司 4 4855
专利代理师 沈冠雄
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/117(2020.01)
G06F 16/35(2019.01)
G06K 9/62(2022.01)
(54)发明名称
一种文本分段主题提取方法、 系统、 可读介
质及设备
(57)摘要
本发明涉及主题提取领域, 具体提供了一种
文本分段主题提取方法、 系统、 可读介质及设备,
包括: 基于预设分段特征 以及预设分段分类器,
对目标文本进行分段处理, 并在每个 分段文本的
分段节点上标注分段字 符; 检测分段文本的起始
端点与末尾端点; 判断 同个分段文本所标注的分
段字符与检测结果是否匹配; 当匹配时, 获取与
预设分段特征一致的提取特征, 并按照提取特
征, 对每个分段文本进行关键字提取, 并对提取
后的关键字进行字分析, 得到分段主题; 对所有
分段主题进行主题分析, 得到文本主题。 通过进
行文本智能分段、 对提取的关键字进行字分析得
到分段题主、 对分段主题进行分析得到文本主
题, 可以对文本结构进行有效梳理, 提高用户的
阅读体验感。
权利要求书4页 说明书13页 附图3页
CN 114841171 A
2022.08.02
CN 114841171 A
1.一种文本分段主题提取 方法, 其特 征在于, 包括:
步骤1: 基于预设分段特征以及预设分段分类器, 对目标文本进行分段处理, 并在每个
分段文本的分段节点上 标注分段字符;
步骤2: 检测所述分段文本的起始端点与末尾端点;
步骤3: 判断同个分段文本所 标注的分段字符与检测结果是否匹配;
步骤4: 当匹配时, 获取与所述预设分段特征一致的提取特征, 并按照所述提取特征, 对
每个分段文本进行关键 字提取, 并对提取后的关键 字进行字分析, 得到分段主题;
步骤5: 对所有分段主题进行主题分析, 得到文本主题。
2.如权利要求1所述的文本分段主题提取方法, 其特征在于, 步骤1: 基于预设分段特征
以及预设 分段分类 器, 对目标文本进行分段处 理, 包括:
获取所述预设 分段分类 器的分类特 征引擎集合;
基于所述目标文本的文本量以及文本读写复杂度, 确定当所述目标文本完全满足对应
的分类特征引擎的执行条件时, 预估对应分类特征引擎在分段处理过程中的预设执行时
间;
当按照所述分类特征引擎对所述目标文本进行分段处理时, 统计对应分类特征引擎的
当下执行时间;
基于所述当下执行时间、 当下执行时间与对应预设执行时间的比值以及对应分类特征
引擎的引擎标识, 构建对应分类特 征引擎的分段处 理曲线;
基于所述预设分段分类器的预设属性, 对所有分段处理曲线进行曲线处理, 得到分段
图;
遍历所述分段图, 按照相似等级, 进行曲线同类显著性显示;
根据显著性显示结果, 对同类显著性显示范围进行框 定, 并对框 定范围进行 大小排序;
获取前N1个框定范围所对应的框定特征引擎, 并分别获取每个框定特征引擎的框选分
段特征;
从所有预设 分段特征中, 匹配与所述框 选分段特征相似的第一分段 特征;
分别获取前N1个框定范围中每个框定范围包含的框定特征引擎对所述目标文本的分
段处理总文本以及第一分段处 理结果;
基于所述第一分段特征, 对对应框定范围的分段处理总文本进行分段处理验证, 得到
第二分段处 理结果;
当所述第一分段处理结果与第 二分段处理结果一致 时, 将对应框定范围中框定特征引
擎的分段处 理结果保留;
否则, 将所述第一分段处理结果与第二分段处理结果进行对比分析, 得到第三分段处
理结果, 并保留;
获取剩余框定范围中的框定引擎特征所对应的分段处理结果, 并结合保留的分段处理
结果, 得到分段文本 。
3.如权利要求2所述的文本分段主题提取方法, 其特征在于, 在每个分段文本的分段节
点上标注分段字符, 包括:
按照每个分段文本涉及的预设分段特征、 前N1个框定范围内的框定特征引擎、 剩余框
定范围内的框 定特征引擎, 构建对应分段文本的特 征集合;权 利 要 求 书 1/4 页
2
CN 114841171 A
2基于特征字符生成模型, 对当下 特征集合进行预处理, 生成待处 理字符;
同时, 基于所述特征字符生成模型, 对相邻 两侧的特征集合进行预处理, 生成左侧辅助
字符以及右侧辅助字符;
基于所述待处理字符 以及左侧辅助字符, 得到对应分段文本的第一分段字符, 并在所
述分段节点的左侧设置第一空白单 元, 标注所述第一分段字符;
基于所述待处理字符 以及右侧辅助字符, 得到对应分段文本的第二分段字符, 并在所
述分段节点的右侧设置第二空白单 元, 标注所述第二分段字符;
其中, 同个分段节点的第一分段字符与第二分段字符即为分段节点上标注的分段字
符。
4.如权利要求1所述的分段文本主题提取方法, 其特征在于, 步骤2, 检测所述分段文本
的起始端点与末尾端点, 包括:
获取所述分段文本的文本字符, 并按照句划分规则, 对所述分段文本进行句划分, 得到
若干第一子句;
同时, 对所述文本 字符进行 段识别, 得到段 领域以及段知识;
分别确定每个第一子句的句领域以及句知识, 并将每个句领域与 段领域进行第 一匹配
以及将每 个句知识与段知识进行第二匹配;
基于第一匹配结果以及第 二匹配结果, 筛选满足双匹配条件的第 一个第一子句以及最
后一个第一子句, 并将所述第一个第一子句 视为第二子句, 将所述最后一个第一子句 视为
第三子句;
对所述第 二子句进行起始端点检测, 得到所述第 二子句的第 一句特征, 同时, 对所述第
三子句进行末尾端点检测, 得到所述第三子句的第二句特 征。
5.如权利要求1所述的分段文本主题提取方法, 其特征在于, 步骤4, 判断同个分段文本
所标注的分段字符与检测结果是否匹配, 包括:
基于所述分段字符得到第 一分段字符以及第二分段字符, 同时, 基于检测结果, 得到第
一句特征以及第二句特 征;
基于字符向量转换模型, 将所述第一分段字符进行字符向量标准转换, 得到第一转换
向量, 同时, 将所述第二分段字符进行字符向量标准 转换, 得到第二 转换向量;
基于特征向量转换模型, 将所述第一句特征进行特征向量标准转换, 得到第一特征向
量, 同时, 将所述第二句特 征进行特征向量标准 转换, 得到第二特 征向量;
优先将同侧的第一转换向量与第一特征向量以及第二转换向量与第二特征向量进行
向量配准;
当向量配准结果满足预设配准条件时, 判定同个分段文本所标注的分段字符与检测结
果匹配;
否则, 判定同个分段文本所标注的分段字符与检测结果不匹配, 获取所述分段文本以
及对应的相邻文本, 重新进行分段处 理。
6.如权利要求1所述的分段文本主题提取方法, 其特征在于, 步骤4, 获取与所述预设分
段特征一致的提取特征, 并按照所述提取特征, 对每个分段文本进 行关键字提取, 并对提取
后的关键 字进行字分析, 得到分段主题, 包括:
从分段‑提取特征数据库中, 匹配得到与所述预设 分段特征一致的提取 特征;权 利 要 求 书 2/4 页
3
CN 114841171 A
3
专利 一种文本分段主题提取方法、系统、可读介质及设备
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:28上传分享