(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210355287.4
(22)申请日 2022.04.06
(71)申请人 北京金山数字 娱乐科技有限公司
地址 100085 北京市海淀区西二 旗中路33
号院5号楼1 1层002号
(72)发明人 王丙琛 李长亮 李小龙
(74)专利代理 机构 北京柏杉松知识产权代理事
务所(普通 合伙) 11413
专利代理师 孙翠贤 孟维娜
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/279(2020.01)
G06F 40/126(2020.01)
G06F 16/335(2019.01)
(54)发明名称
一种摘要提取方法、 装置、 设备以及存储介
质
(57)摘要
本发明实施例提供了一种摘要提取方法、 装
置、 设备以及存储介质, 涉及人工智能技术领域,
特别是涉及自然语 言处理技术领域。 具体实现方
案为: 对目标文本中的各个语句进行预测处理,
得到各个语句的预测结果; 其中, 所述预测处理
用于预测是否属于摘要语句; 利用各个预测结
果, 从所述目标文本中筛选多个目标语句; 其中,
所述目标语句为被预测为属于摘要语句的语句;
构建包含所述多个目标语句的初始摘要; 对所述
初始摘要进行语义生成处理, 得到所述目标文本
的摘要; 其中, 所述语义生成处理用于生成完整
语义信息。 可见, 通过本方案, 可以兼顾摘要 提取
的效率以及准确度。
权利要求书3页 说明书15页 附图3页
CN 114722832 A
2022.07.08
CN 114722832 A
1.一种摘要提取 方法, 其特 征在于, 所述方法包括:
对目标文本 中的各个语句进行预测处理, 得到各个语句的预测结果; 其中, 所述预测处
理用于预测是否属于摘要语句;
利用各个预测结果, 从所述目标文本 中筛选多个目标语句; 其中, 所述目标语句为被预
测为属于摘要语句的语句;
构建包含所述多个目标语句的初始摘要;
对所述初始摘要进行语义生成处理, 得到所述目标文本的摘要; 其中, 所述语义生成处
理用于生成完整语义信息 。
2.根据权利要求1所述的方法, 其特征在于, 所述对目标文本 中的各个语句进行预测处
理, 得到各个 语句的预测结果, 包括:
对目标文本进行分句处 理, 得到待处 理的各个 语句;
利用预先训练完成的、 用于预测语句是否属于摘要语句的预测模型, 对所述待处理的
各个语句进行 预测, 得到各个 语句的预测结果。
3.根据权利要求2所述的方法, 其特征在于, 所述预测模型为基于多个样本文本 中的各
个样本语句以及每一样本语句的第一指 定标签, 训练得到的模 型; 其中, 每一样本语句的第
一指定标签用于表征该样本语句是否属于摘要语句, 且每一样本语句的第一指 定标签基于
该样本语句对应的摘要, 对该样本语句进行标签识别得到, 该样本语句对应的摘要为人工
设定的、 针对该样本语句所属的样本文本的摘要。
4.根据权利要求3所述的方法, 其特征在于, 所述基于该样本语句对应的摘要, 对该样
本语句进行 标签识别的方式, 包括:
获取该样本语句对应的摘要所包 含的各个 语句;
识别所获取的各个 语句中, 是否存在与该样本语句的匹配度超过 预设阈值的语句;
若存在, 将表征该样本语句属于摘要语句的第一标签, 确定为该样本语句的第一指定
标签, 否则, 将表征该样本语句不属于摘要语句的第二标签, 确定为该样本语句的第一指 定
标签。
5.根据权利要求4所述的方法, 其特征在于, 所述识别所获取的各个语句中, 是否存在
与该样本语句的匹配度超过 预设阈值的语句, 包括:
计算所获取的各个 语句与该样本语句之间的匹配度, 得到各个匹配结果;
从所述各个匹配结果中, 确定是否存在匹配度超过 预设阈值的匹配结果。
6.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述对所述初始摘要进行语义生
成处理, 得到所述目标文本的摘要, 包括:
利用预先训练完成的、 用于生成完整语义信息的生成模型, 对所述初始摘要进行语义
生成处理, 得到所述目标文本的摘要; 其中, 所述生成模型为基于多个样本摘要训练得到的
模型, 每一样本摘要 具有第二指 定标签, 每一第二指定标签为人工 设定的、 针对样本摘要 所
属的样本文本的摘要。
7.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述构建包含所述多个目标语句
的初始摘要, 包括:
按照预设的排序方式, 对所述多个目标语句进行排序;
对所述多个目标语句按照排序顺序进行组合, 得到初始摘要。权 利 要 求 书 1/3 页
2
CN 114722832 A
28.一种摘要提取装置, 其特 征在于, 所述装置包括:
处理模块, 用于对目标文本中的各个语句进行预测处理, 得到各个语句的预测结果; 其
中, 所述预测处 理用于预测是否属于摘要语句;
筛选模块, 用于利用各个预测结果, 从所述目标文本中筛选多个目标语句; 其中, 所述
目标语句为被预测为属于摘要语句的语句;
构建模块, 用于构建包 含所述多个目标语句的初始摘要;
生成模块, 用于对所述初始摘要进行语义生成处理, 得到所述目标文本的摘要; 其中,
所述语义 生成处理用于生成完整语义信息 。
9.根据权利要求8所述的装置, 其特 征在于, 所述处 理模块, 包括:
分句子模块, 用于对目标文本进行分句处 理, 得到待处 理的各个 语句;
预测子模块, 用于利用预先训练完成的、 用于预测语句是否属于摘要语句的预测模型,
对所述待处 理的各个 语句进行 预测, 得到各个 语句的预测结果。
10.根据权利要求8所述的装置, 其特征在于, 所述预测模型为基于多个样本文本中的
各个样本语句以及每一样本语句的第一指定标签, 训练得到的模型; 其中, 每一样本语句的
第一指定标签用于表征该样本语句是否属于摘要语句, 且每一样本语句的第一指 定标签基
于该样本语句对应的摘要, 对该样本语句进行标签识别得到, 该样本语句对应的摘要为人
工设定的、 针对该样本语句所属的样本文本的摘要。
11.根据权利要求10所述的装置, 其特征在于, 所述基于该样本语句对应的摘要, 对该
样本语句进行 标签识别的方式, 包括:
获取该样本语句对应的摘要所包 含的各个 语句;
识别所获取的各个 语句中, 是否存在与该样本语句的匹配度超过 预设阈值的语句;
若存在, 将表征该样本语句属于摘要语句的第一标签, 确定为该样本语句的第一指定
标签, 否则, 将表征该样本语句不属于摘要语句的第二标签, 确定为该样本语句的第一指 定
标签。
12.根据权利要求11所述的装置, 其特征在于, 所述识别所获取的各个语句中, 是否存
在与该样本语句的匹配度超过 预设阈值的语句, 包括:
计算所获取的各个 语句与该样本语句之间的匹配度, 得到各个匹配结果;
从所述各个匹配结果中, 确定是否存在匹配度超过 预设阈值的匹配结果。
13.根据权利要求8 ‑12任一项所述的装置, 其特 征在于, 所述 生成模块, 具体用于:
利用预先训练完成的、 用于生成完整语义信息的生成模型, 对所述初始摘要进行语义
生成处理, 得到所述目标文本的摘要; 其中, 所述生成模型为基于多个样本摘要训练得到的
模型, 每一样本摘要 具有第二指 定标签, 每一第二指定标签为人工 设定的、 针对样本摘要 所
属的样本文本的摘要。
14.根据权利要求8 ‑12任一项所述的装置, 其特 征在于, 所述构建模块, 具体用于:
按照预设的排序方式, 对所述多个目标语句进行排序;
对所述多个目标语句按照排序顺序进行组合, 得到初始摘要。
15.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储器和通信总 线, 其中, 处理
器, 通信接口, 存 储器通过通信总线完成相互间的通信;
存储器, 用于存放计算机程序;权 利 要 求 书 2/3 页
3
CN 114722832 A
3
专利 一种摘要提取方法、装置、设备以及存储介质
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:21上传分享