专利 文本通顺度的检测方法、装置、设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111412965.8 (22)申请日 2021.11.25 (71)申请人腾讯科技（深圳）有限公司地址 518044 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人岳天驰　 (74)专利代理机构北京同达信恒知识产权代理有限公司 1 1291 代理人朱佳 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/253(2020.01) G06F 40/258(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称文本通顺度的检测方法、装置、设备及存储介质 (57)摘要本申请涉及计算机领域，特别涉及人工智能领域，提供了一种文本通顺度的检测方法、装置、设备及存储介质，应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。该方法包括：从待检测文本中的至少一个语句中，分别获得相应字符上下文特征集合和文本类型特征，再基于上述两个特征，确定至少一个语句各自的注意力特征，最后基于获得的至少一个注意力特征，分别确定相应语句的通顺度检测结果，并基于至少一个语句的通顺度检测结果，确定待检测文本的文本通顺度检测结果。使用一个检测模型检测不同场景下的文本通顺度，解决了因标注数据集数量不足，造成的泛化性差、检测准确率低的问题。而且，每次检测获得的注意力特征，也有利于提高检测准确率。权利要求书3页说明书16页附图10页 CN 114138934 A 2022.03.04 CN 114138934 A 1.一种文本通顺度的检测方法，其特征在于，包括：获取包含至少一个语句的待检测文本；针对所述至少一个语句进行特征提取，分别获得所述至少一个语句各自的字符上下文特征集合和文本类型特征；基于获得的至少一个字符上下文特征集合和至少一个文本类型特征，分别获得相应语句的注意力特征，其中，一个注意力特征表征相应语句中的关键字符信息；基于获得的至少一个注意力特征，分别确定相应语句的通顺度检测结果，并基于获得的所述至少一个语句的通顺度检测结果，确定所述待检测文本的文本通顺度检测结果。 2.如权利要求1所述的方法，其特征在于，所述针对所述至少一个语句进行特征提取，分别获得所述至少一个语句各自的字符上下文特征集合和文本类型特征，包括：针对各个语句，分别执行以下操作：对一个语句进行分字处理，获得相应的字符序列；基于文本通顺度检测模型的特征提取模块进行特征提取，获得所述字符序列中各个字符各自的字符内容特征及字符位置特征，以及所述一个语句的文本类型特征；基于所述文本通顺度检测模型的编码模块，对各个字符内容特征、各个字符位置特征以及所述文本类型特征进行编码，获得所述一个语句的字符上下文特征集合。 3.如权利要求2所述的方法，其特征在于，所述基于文本通顺度检测模型的特征提取模块进行特征提取，获得所述字符序列中各个字符各自的字符内容特征及字符位置特征，以及所述一个语句的文本类型特征，包括：基于所述文本通顺度检测模型的第一特征提取子模块，对所述字符序列中所述各个字符的内容及所述各个字符的位置进行特征提取，获得所述各个字符各自的字符内容特征及字符位置特征；基于所述文本通顺度检测模型的第二特征提取子模块，对所述一个语句携带的文本类型标识进行特征提取，获得所述一个语句的文本类型特征。 4.如权利要求2所述的方法，其特征在于，所述对所述一个语句进行分字处理，获得相应的字符序列，包括：在所述一个语句的句首添加分类标识符，以及在相应语句的句尾添加分离标识符；将所述分类标识符、所述一个语句包含的各个字以及所述分离标识符，拼接为所述字符序列。 5.如权利要求1所述的方法，其特征在于，所述基于获得的至少一个字符上下文特征集合和至少一个文本类型特征，分别获得相应语句的注意力特征，包括：针对各个语句，分别执行以下操作：将一个语句的文本类型特征，分别与相应的字符上下文特征集合中的各个字符上下文特征进行归一化处理，获得所述一个语句包含的各个字符各自的注意力评估值；通过对所述各个字符各自的字符上下文特征和各个注意力评估值进行加权求和，获得所述一个语句的注意力特征。 6.如权利要求2～3任一项所述的方法，其特征在于，通过执行以下操作训练所述文本通顺度检测模型：使用多个样本标注数据集训练所述文本通顺度检测模型，直至所述文本通顺度检测模权　利　要　求　书 1/3 页 2 CN 114138934 A 2型符合迭代停止条件为止，输出训练完毕的文本通顺度检测模型；其中，每读取一个样本标注数据集，基于所述文本通顺度检测模型输出的所述一个样本标注数据集中各个样本标注数据各自的第一样本预测标签、第二样本预测标签，预设的标题通顺度检测模型或者正文通顺度检测模型输出的所述各个样本标注数据各自的第三样本预测标签、第四样本预测标签，以及所述各个样本标注数据各自的实际分类标签，重新调整所述文本通顺度检测模型的模型参数。 7.如权利要求6所述的方法，其特征在于，所述基于所述文本通顺度检测模型输出的所述一个样本标注数据集中各个样本标注数据各自的第一样本预测标签、第二样本预测标签，预设的标题通顺度检测模型或者正文通顺度检测模型输出的所述各个样本标注数据各自的第三样本预测标签、第四样本预测标签，以及所述各个样本标注数据各自的实际分类标签，重新调整所述文本通顺度检测模型的模型参数，包括：基于所述文本通顺度检测模型输出的所述一个样本标注数据集中所述各个样本标注数据的第一样本预测标签、第二样本预测标签，所述标题通顺度检测模型或所述正文通顺度检测模型输出的所述各个样本标注数据各自的第三样本预测标签、第四样本预测标签，确定所述文本通顺度检测模型的第一模型损失值；基于所述各个样本标注数据各自的第三样本预测标签、第四样本预测标签，以及所述各个样本标注数据各自的实际分类标签，确定所述文本通顺度检测模型的第二模型损失值；基于所述第一模型损失值和所述第二模型损失值，重新调整所述文本通顺度检测模型的模型参数。 8.如权利要求1所述的方法，其特征在于，所述基于获得的至少一个注意力特征，分别确定相应语句的通顺度检测结果，包括：针对所述至少一个注意力特征，分别执行以下操作：将一个语句对应的一个注意力特征输入文本通顺度检测模型的文本通顺度分类模块中，获得所述一个语句的第一目标预测标签和第二目标预测标签，其中，所述第一目标预测标签表征所述一个语句文本通顺的预测概率，所述第二目标预测标签表征所述一个语句文本不通顺的预测概率；将预测概率最大值对应的目标预测标签，作为所述一个语句的通顺度检测结果。 9.如权利要求1～5任一项所述的方法，其特征在于，在确定所述待检测文本的文本通顺度检测结果之后，还包括：当所述待检测文本的文本通顺度检测结果显示所述待检测文本中，存在语句错误的语句数量位于第一语句错误数量区间时，延迟推送所述待检测文本；当所述待检测文本的文本通顺度检测结果显示所述待检测文本中，存在语句错误的语句数量位于第二语句错误数量区间时，提示重新审核所述待检测文本；当所述待检测文本的文本通顺度检测结果显示所述待检测文本中，存在语句错误的语句数量位于第三语句错误数量区间时，拦截所述待检测文本；其中，所述第二语句错误数量区间的取值范围大于所述第一语句错误数量区间的取值范围，且小于所述第三语句错误数量区间的取值范围。 10.一种文本通顺度的检测装置，其特征在于，包括：权　利　要　求　书 2/3 页 3 CN 114138934 A 3

专利 文本通顺度的检测方法、装置、设备及存储介质

专利文本通顺度的检测方法、装置、设备及存储介质