(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111412965.8
(22)申请日 2021.11.25
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518044 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 岳天驰
(74)专利代理 机构 北京同达信恒知识产权代理
有限公司 1 1291
代理人 朱佳
(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 40/253(2020.01)
G06F 40/258(2020.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06N 20/00(2019.01)
(54)发明名称
文本通顺度 的检测方法、 装置、 设备及存储
介质
(57)摘要
本申请涉及计算机领域, 特别涉及人工智能
领域, 提供了一种文本通顺度的检测方法、 装置、
设备及存储介质, 应用于云技术、 人工智能、 智慧
交通、 辅助 驾驶等各种场景。 该方法包括: 从待检
测文本中的至少一个语句中, 分别获得相应字 符
上下文特征集合和文本类型特征, 再基于上述两
个特征, 确定至少一个语句各自的注意力特征,
最后基于获得的至少一个注意力特征, 分别确定
相应语句的通顺度检测结果, 并基于至少一个语
句的通顺度检测结果, 确定待检测文本的文本通
顺度检测结果。 使用一个检测模 型检测不同场景
下的文本通顺度, 解决了因标注数据集数量不
足, 造成的泛化性差、 检测准确率低的问题。 而
且, 每次检测获得的注意力特征, 也有利于提高
检测准确率。
权利要求书3页 说明书16页 附图10页
CN 114138934 A
2022.03.04
CN 114138934 A
1.一种文本通 顺度的检测方法, 其特 征在于, 包括:
获取包含至少一个 语句的待检测文本;
针对所述至少一个语句进行特征提取, 分别获得所述至少一个语句各自的字符上下文
特征集合和文本类型 特征;
基于获得的至少一个字符上下文特征集合和至少一个文本类型特征, 分别获得相应语
句的注意力特 征, 其中, 一个注意力特 征表征相应 语句中的关键 字符信息;
基于获得的至少一个注意力特征, 分别确定相应语句的通顺度检测结果, 并基于获得
的所述至少一个 语句的通 顺度检测结果, 确定所述待检测文本的文本通 顺度检测结果。
2.如权利要求1所述的方法, 其特征在于, 所述针对所述至少一个语句进行特征提取,
分别获得 所述至少一个 语句各自的字符上 下文特征集合和文本类型 特征, 包括:
针对各个 语句, 分别执 行以下操作:
对一个语句进行分字处 理, 获得相应的字符序列;
基于文本通顺度检测模型的特征提取模块进行特征提取, 获得所述字符序列中各个字
符各自的字符内容特 征及字符位置特 征, 以及所述 一个语句的文本类型 特征;
基于所述文本通顺度检测模型的编码模块, 对各个字符内容特征、 各个字符位置特征
以及所述文本类型 特征进行编码, 获得 所述一个语句的字符上 下文特征集合。
3.如权利要求2所述的方法, 其特征在于, 所述基于文本通顺度检测模型的特征提取模
块进行特征提取, 获得所述字符序列中各个字符各自的字符内容特征及字符位置特征, 以
及所述一个语句的文本类型 特征, 包括:
基于所述文本通顺度检测模型的第 一特征提取子模块, 对所述字符序列中所述各个字
符的内容及所述各个字符的位置进行特征提取, 获得所述各个字符各自的字符内容特征及
字符位置特 征;
基于所述文本通顺度检测模型的第 二特征提取子模块, 对所述一个语句携带的文本类
型标识进行 特征提取, 获得 所述一个语句的文本类型 特征。
4.如权利要求2所述的方法, 其特征在于, 所述对所述一个语句进行分字处理, 获得相
应的字符序列, 包括:
在所述一个语句的句首 添加分类标识符, 以及 在相应语句的句尾添加分离标识符;
将所述分类标识符、 所述一个语句包含的各个字以及所述分离标识符, 拼接为所述字
符序列。
5.如权利要求1所述的方法, 其特征在于, 所述基于获得的至少一个字符上下文特征集
合和至少一个文本类型 特征, 分别获得相应 语句的注意力特 征, 包括:
针对各个 语句, 分别执 行以下操作:
将一个语句的文本类型特征, 分别与相应的字符上下文特征集合中的各个字符上下文
特征进行归一 化处理, 获得所述一个语句包含的各个字符各自的注意力评估值;
通过对所述各个字符各自的字符上下文特征和各个注意力 评估值进行加权求和, 获得
所述一个语句的注意力特 征。
6.如权利要求2~3任一项所述的方法, 其特征在于, 通过执行以下操作训练所述文本
通顺度检测模型:
使用多个样本标注数据集训练所述文本通顺度检测模型, 直至所述文本通顺度检测模权 利 要 求 书 1/3 页
2
CN 114138934 A
2型符合迭代 停止条件为止, 输出训练完毕的文本通 顺度检测模型;
其中, 每读取一个样本标注数据集, 基于所述文本通顺度检测模型输出的所述一个样
本标注数据集中各个样本标注数据各自的第一样本预测标签、 第二样本预测标签, 预设的
标题通顺度检测模型或者正文通顺度检测模型输出的所述各个样本标注数据各自的第三
样本预测标签、 第四样本预测标签, 以及所述各个样本标注数据各自的实际分类标签, 重新
调整所述文本通 顺度检测模型的模型参数。
7.如权利要求6所述的方法, 其特征在于, 所述基于所述文本通顺度检测模型输出的所
述一个样本标注数据集中各个样本标注数据各自的第一样本预测标签、 第二样本预测标
签, 预设的标题通顺度检测模型或者正文通顺度检测模型输出的所述各个样本标注数据各
自的第三样本预测标签、 第四样本预测标签, 以及所述各个样本标注数据各自的实际分类
标签, 重新调整所述文本通 顺度检测模型的模型参数, 包括:
基于所述文本通顺度检测模型输出的所述一个样本标注数据集中所述各个样本标注
数据的第一样本预测标签、 第二样本预测标签, 所述标题通顺度检测模型或所述正文通顺
度检测模型输出 的所述各个样本标注数据各自的第三样本预测标签、 第四样本预测标签,
确定所述文本通 顺度检测模型的第一模型损失值;
基于所述各个样本标注数据各自的第三样本预测标签、 第 四样本预测标签, 以及所述
各个样本标注数据各自的实际分类标签, 确定所述文本通顺度检测模型的第二模型损失
值;
基于所述第 一模型损失值和所述第 二模型损失值, 重新调整所述文本通顺度检测模型
的模型参数。
8.如权利要求1所述的方法, 其特征在于, 所述基于获得的至少一个注意力特征, 分别
确定相应 语句的通 顺度检测结果, 包括:
针对所述至少一个注意力特 征, 分别执 行以下操作:
将一个语句对应的一个注意力特征输入文本通顺度检测模型的文本通顺度分类模块
中, 获得所述一个语句的第一目标预测标签和第二目标预测标签, 其中, 所述第一目标预测
标签表征所述一个语句文本通顺的预测概率, 所述第二目标预测标签表征所述一个语句文
本不通顺的预测概 率;
将预测概 率最大值对应的目标 预测标签, 作为所述 一个语句的通 顺度检测结果。
9.如权利要求1~5任一项所述的方法, 其特征在于, 在确定所述待检测文本的文本通
顺度检测结果之后, 还 包括:
当所述待检测文本的文本通顺度检测结果显示所述待检测文本中, 存在语句错误的语
句数量位于第一语句错 误数量区间时, 延迟推送所述待检测文本;
当所述待检测文本的文本通顺度检测结果显示所述待检测文本中, 存在语句错误的语
句数量位于第二语句错 误数量区间时, 提 示重新审核所述待检测文本;
当所述待检测文本的文本通顺度检测结果显示所述待检测文本中, 存在语句错误的语
句数量位于第三语句错 误数量区间时, 拦截所述待检测文本;
其中, 所述第 二语句错误数量 区间的取值范围大于所述第 一语句错误数量区间的取值
范围, 且小于所述第三语句错 误数量区间的取值范围。
10.一种文本通 顺度的检测装置, 其特 征在于, 包括:权 利 要 求 书 2/3 页
3
CN 114138934 A
3
专利 文本通顺度的检测方法、装置、设备及存储介质
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:22:14上传分享