专利 一种摘要提取方法、装置、设备以及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210355287.4 (22)申请日 2022.04.06 (71)申请人北京金山数字娱乐科技有限公司地址 100085 北京市海淀区西二旗中路33 号院5号楼1 1层002号 (72)发明人王丙琛　李长亮　李小龙　 (74)专利代理机构北京柏杉松知识产权代理事务所(普通合伙) 11413 专利代理师孙翠贤　孟维娜 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/279(2020.01) G06F 40/126(2020.01) G06F 16/335(2019.01) (54)发明名称一种摘要提取方法、装置、设备以及存储介质 (57)摘要本发明实施例提供了一种摘要提取方法、装置、设备以及存储介质，涉及人工智能技术领域，特别是涉及自然语言处理技术领域。具体实现方案为：对目标文本中的各个语句进行预测处理，得到各个语句的预测结果；其中，所述预测处理用于预测是否属于摘要语句；利用各个预测结果，从所述目标文本中筛选多个目标语句；其中，所述目标语句为被预测为属于摘要语句的语句；构建包含所述多个目标语句的初始摘要；对所述初始摘要进行语义生成处理，得到所述目标文本的摘要；其中，所述语义生成处理用于生成完整语义信息。可见，通过本方案，可以兼顾摘要提取的效率以及准确度。权利要求书3页说明书15页附图3页 CN 114722832 A 2022.07.08 CN 114722832 A 1.一种摘要提取方法，其特征在于，所述方法包括：对目标文本中的各个语句进行预测处理，得到各个语句的预测结果；其中，所述预测处理用于预测是否属于摘要语句；利用各个预测结果，从所述目标文本中筛选多个目标语句；其中，所述目标语句为被预测为属于摘要语句的语句；构建包含所述多个目标语句的初始摘要；对所述初始摘要进行语义生成处理，得到所述目标文本的摘要；其中，所述语义生成处理用于生成完整语义信息。 2.根据权利要求1所述的方法，其特征在于，所述对目标文本中的各个语句进行预测处理，得到各个语句的预测结果，包括：对目标文本进行分句处理，得到待处理的各个语句；利用预先训练完成的、用于预测语句是否属于摘要语句的预测模型，对所述待处理的各个语句进行预测，得到各个语句的预测结果。 3.根据权利要求2所述的方法，其特征在于，所述预测模型为基于多个样本文本中的各个样本语句以及每一样本语句的第一指定标签，训练得到的模型；其中，每一样本语句的第一指定标签用于表征该样本语句是否属于摘要语句，且每一样本语句的第一指定标签基于该样本语句对应的摘要，对该样本语句进行标签识别得到，该样本语句对应的摘要为人工设定的、针对该样本语句所属的样本文本的摘要。 4.根据权利要求3所述的方法，其特征在于，所述基于该样本语句对应的摘要，对该样本语句进行标签识别的方式，包括：获取该样本语句对应的摘要所包含的各个语句；识别所获取的各个语句中，是否存在与该样本语句的匹配度超过预设阈值的语句；若存在，将表征该样本语句属于摘要语句的第一标签，确定为该样本语句的第一指定标签，否则，将表征该样本语句不属于摘要语句的第二标签，确定为该样本语句的第一指定标签。 5.根据权利要求4所述的方法，其特征在于，所述识别所获取的各个语句中，是否存在与该样本语句的匹配度超过预设阈值的语句，包括：计算所获取的各个语句与该样本语句之间的匹配度，得到各个匹配结果；从所述各个匹配结果中，确定是否存在匹配度超过预设阈值的匹配结果。 6.根据权利要求1 ‑5任一项所述的方法，其特征在于，所述对所述初始摘要进行语义生成处理，得到所述目标文本的摘要，包括：利用预先训练完成的、用于生成完整语义信息的生成模型，对所述初始摘要进行语义生成处理，得到所述目标文本的摘要；其中，所述生成模型为基于多个样本摘要训练得到的模型，每一样本摘要具有第二指定标签，每一第二指定标签为人工设定的、针对样本摘要所属的样本文本的摘要。 7.根据权利要求1 ‑5任一项所述的方法，其特征在于，所述构建包含所述多个目标语句的初始摘要，包括：按照预设的排序方式，对所述多个目标语句进行排序；对所述多个目标语句按照排序顺序进行组合，得到初始摘要。权　利　要　求　书 1/3 页 2 CN 114722832 A 28.一种摘要提取装置，其特征在于，所述装置包括：处理模块，用于对目标文本中的各个语句进行预测处理，得到各个语句的预测结果；其中，所述预测处理用于预测是否属于摘要语句；筛选模块，用于利用各个预测结果，从所述目标文本中筛选多个目标语句；其中，所述目标语句为被预测为属于摘要语句的语句；构建模块，用于构建包含所述多个目标语句的初始摘要；生成模块，用于对所述初始摘要进行语义生成处理，得到所述目标文本的摘要；其中，所述语义生成处理用于生成完整语义信息。 9.根据权利要求8所述的装置，其特征在于，所述处理模块，包括：分句子模块，用于对目标文本进行分句处理，得到待处理的各个语句；预测子模块，用于利用预先训练完成的、用于预测语句是否属于摘要语句的预测模型，对所述待处理的各个语句进行预测，得到各个语句的预测结果。 10.根据权利要求8所述的装置，其特征在于，所述预测模型为基于多个样本文本中的各个样本语句以及每一样本语句的第一指定标签，训练得到的模型；其中，每一样本语句的第一指定标签用于表征该样本语句是否属于摘要语句，且每一样本语句的第一指定标签基于该样本语句对应的摘要，对该样本语句进行标签识别得到，该样本语句对应的摘要为人工设定的、针对该样本语句所属的样本文本的摘要。 11.根据权利要求10所述的装置，其特征在于，所述基于该样本语句对应的摘要，对该样本语句进行标签识别的方式，包括：获取该样本语句对应的摘要所包含的各个语句；识别所获取的各个语句中，是否存在与该样本语句的匹配度超过预设阈值的语句；若存在，将表征该样本语句属于摘要语句的第一标签，确定为该样本语句的第一指定标签，否则，将表征该样本语句不属于摘要语句的第二标签，确定为该样本语句的第一指定标签。 12.根据权利要求11所述的装置，其特征在于，所述识别所获取的各个语句中，是否存在与该样本语句的匹配度超过预设阈值的语句，包括：计算所获取的各个语句与该样本语句之间的匹配度，得到各个匹配结果；从所述各个匹配结果中，确定是否存在匹配度超过预设阈值的匹配结果。 13.根据权利要求8 ‑12任一项所述的装置，其特征在于，所述生成模块，具体用于：利用预先训练完成的、用于生成完整语义信息的生成模型，对所述初始摘要进行语义生成处理，得到所述目标文本的摘要；其中，所述生成模型为基于多个样本摘要训练得到的模型，每一样本摘要具有第二指定标签，每一第二指定标签为人工设定的、针对样本摘要所属的样本文本的摘要。 14.根据权利要求8 ‑12任一项所述的装置，其特征在于，所述构建模块，具体用于：按照预设的排序方式，对所述多个目标语句进行排序；对所述多个目标语句按照排序顺序进行组合，得到初始摘要。 15.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；存储器，用于存放计算机程序；权　利　要　求　书 2/3 页 3 CN 114722832 A 3

专利 一种摘要提取方法、装置、设备以及存储介质

专利一种摘要提取方法、装置、设备以及存储介质