安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210355287.4 (22)申请日 2022.04.06 (71)申请人 北京金山数字 娱乐科技有限公司 地址 100085 北京市海淀区西二 旗中路33 号院5号楼1 1层002号 (72)发明人 王丙琛 李长亮 李小龙  (74)专利代理 机构 北京柏杉松知识产权代理事 务所(普通 合伙) 11413 专利代理师 孙翠贤 孟维娜 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/279(2020.01) G06F 40/126(2020.01) G06F 16/335(2019.01) (54)发明名称 一种摘要提取方法、 装置、 设备以及存储介 质 (57)摘要 本发明实施例提供了一种摘要提取方法、 装 置、 设备以及存储介质, 涉及人工智能技术领域, 特别是涉及自然语 言处理技术领域。 具体实现方 案为: 对目标文本中的各个语句进行预测处理, 得到各个语句的预测结果; 其中, 所述预测处理 用于预测是否属于摘要语句; 利用各个预测结 果, 从所述目标文本中筛选多个目标语句; 其中, 所述目标语句为被预测为属于摘要语句的语句; 构建包含所述多个目标语句的初始摘要; 对所述 初始摘要进行语义生成处理, 得到所述目标文本 的摘要; 其中, 所述语义生成处理用于生成完整 语义信息。 可见, 通过本方案, 可以兼顾摘要 提取 的效率以及准确度。 权利要求书3页 说明书15页 附图3页 CN 114722832 A 2022.07.08 CN 114722832 A 1.一种摘要提取 方法, 其特 征在于, 所述方法包括: 对目标文本 中的各个语句进行预测处理, 得到各个语句的预测结果; 其中, 所述预测处 理用于预测是否属于摘要语句; 利用各个预测结果, 从所述目标文本 中筛选多个目标语句; 其中, 所述目标语句为被预 测为属于摘要语句的语句; 构建包含所述多个目标语句的初始摘要; 对所述初始摘要进行语义生成处理, 得到所述目标文本的摘要; 其中, 所述语义生成处 理用于生成完整语义信息 。 2.根据权利要求1所述的方法, 其特征在于, 所述对目标文本 中的各个语句进行预测处 理, 得到各个 语句的预测结果, 包括: 对目标文本进行分句处 理, 得到待处 理的各个 语句; 利用预先训练完成的、 用于预测语句是否属于摘要语句的预测模型, 对所述待处理的 各个语句进行 预测, 得到各个 语句的预测结果。 3.根据权利要求2所述的方法, 其特征在于, 所述预测模型为基于多个样本文本 中的各 个样本语句以及每一样本语句的第一指 定标签, 训练得到的模 型; 其中, 每一样本语句的第 一指定标签用于表征该样本语句是否属于摘要语句, 且每一样本语句的第一指 定标签基于 该样本语句对应的摘要, 对该样本语句进行标签识别得到, 该样本语句对应的摘要为人工 设定的、 针对该样本语句所属的样本文本的摘要。 4.根据权利要求3所述的方法, 其特征在于, 所述基于该样本语句对应的摘要, 对该样 本语句进行 标签识别的方式, 包括: 获取该样本语句对应的摘要所包 含的各个 语句; 识别所获取的各个 语句中, 是否存在与该样本语句的匹配度超过 预设阈值的语句; 若存在, 将表征该样本语句属于摘要语句的第一标签, 确定为该样本语句的第一指定 标签, 否则, 将表征该样本语句不属于摘要语句的第二标签, 确定为该样本语句的第一指 定 标签。 5.根据权利要求4所述的方法, 其特征在于, 所述识别所获取的各个语句中, 是否存在 与该样本语句的匹配度超过 预设阈值的语句, 包括: 计算所获取的各个 语句与该样本语句之间的匹配度, 得到各个匹配结果; 从所述各个匹配结果中, 确定是否存在匹配度超过 预设阈值的匹配结果。 6.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述对所述初始摘要进行语义生 成处理, 得到所述目标文本的摘要, 包括: 利用预先训练完成的、 用于生成完整语义信息的生成模型, 对所述初始摘要进行语义 生成处理, 得到所述目标文本的摘要; 其中, 所述生成模型为基于多个样本摘要训练得到的 模型, 每一样本摘要 具有第二指 定标签, 每一第二指定标签为人工 设定的、 针对样本摘要 所 属的样本文本的摘要。 7.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述构建包含所述多个目标语句 的初始摘要, 包括: 按照预设的排序方式, 对所述多个目标语句进行排序; 对所述多个目标语句按照排序顺序进行组合, 得到初始摘要。权 利 要 求 书 1/3 页 2 CN 114722832 A 28.一种摘要提取装置, 其特 征在于, 所述装置包括: 处理模块, 用于对目标文本中的各个语句进行预测处理, 得到各个语句的预测结果; 其 中, 所述预测处 理用于预测是否属于摘要语句; 筛选模块, 用于利用各个预测结果, 从所述目标文本中筛选多个目标语句; 其中, 所述 目标语句为被预测为属于摘要语句的语句; 构建模块, 用于构建包 含所述多个目标语句的初始摘要; 生成模块, 用于对所述初始摘要进行语义生成处理, 得到所述目标文本的摘要; 其中, 所述语义 生成处理用于生成完整语义信息 。 9.根据权利要求8所述的装置, 其特 征在于, 所述处 理模块, 包括: 分句子模块, 用于对目标文本进行分句处 理, 得到待处 理的各个 语句; 预测子模块, 用于利用预先训练完成的、 用于预测语句是否属于摘要语句的预测模型, 对所述待处 理的各个 语句进行 预测, 得到各个 语句的预测结果。 10.根据权利要求8所述的装置, 其特征在于, 所述预测模型为基于多个样本文本中的 各个样本语句以及每一样本语句的第一指定标签, 训练得到的模型; 其中, 每一样本语句的 第一指定标签用于表征该样本语句是否属于摘要语句, 且每一样本语句的第一指 定标签基 于该样本语句对应的摘要, 对该样本语句进行标签识别得到, 该样本语句对应的摘要为人 工设定的、 针对该样本语句所属的样本文本的摘要。 11.根据权利要求10所述的装置, 其特征在于, 所述基于该样本语句对应的摘要, 对该 样本语句进行 标签识别的方式, 包括: 获取该样本语句对应的摘要所包 含的各个 语句; 识别所获取的各个 语句中, 是否存在与该样本语句的匹配度超过 预设阈值的语句; 若存在, 将表征该样本语句属于摘要语句的第一标签, 确定为该样本语句的第一指定 标签, 否则, 将表征该样本语句不属于摘要语句的第二标签, 确定为该样本语句的第一指 定 标签。 12.根据权利要求11所述的装置, 其特征在于, 所述识别所获取的各个语句中, 是否存 在与该样本语句的匹配度超过 预设阈值的语句, 包括: 计算所获取的各个 语句与该样本语句之间的匹配度, 得到各个匹配结果; 从所述各个匹配结果中, 确定是否存在匹配度超过 预设阈值的匹配结果。 13.根据权利要求8 ‑12任一项所述的装置, 其特 征在于, 所述 生成模块, 具体用于: 利用预先训练完成的、 用于生成完整语义信息的生成模型, 对所述初始摘要进行语义 生成处理, 得到所述目标文本的摘要; 其中, 所述生成模型为基于多个样本摘要训练得到的 模型, 每一样本摘要 具有第二指 定标签, 每一第二指定标签为人工 设定的、 针对样本摘要 所 属的样本文本的摘要。 14.根据权利要求8 ‑12任一项所述的装置, 其特 征在于, 所述构建模块, 具体用于: 按照预设的排序方式, 对所述多个目标语句进行排序; 对所述多个目标语句按照排序顺序进行组合, 得到初始摘要。 15.一种电子设备, 其特征在于, 包括处理器、 通信接口、 存储器和通信总 线, 其中, 处理 器, 通信接口, 存 储器通过通信总线完成相互间的通信; 存储器, 用于存放计算机程序;权 利 要 求 书 2/3 页 3 CN 114722832 A 3

.PDF文档 专利 一种摘要提取方法、装置、设备以及存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种摘要提取方法、装置、设备以及存储介质 第 1 页 专利 一种摘要提取方法、装置、设备以及存储介质 第 2 页 专利 一种摘要提取方法、装置、设备以及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:46:21上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。