安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210986062.9 (22)申请日 2022.08.16 (71)申请人 上海浦东发展银行股份有限公司 地址 200000 上海市黄浦区中山 东一路12 号 (72)发明人 杨桂秀 郭林海 万化 张琛  喻燕君 杨洋  (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 黄立伟 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种文本纠错方法、 装置、 电子终端及存储 介质 (57)摘要 本发明实施例公开了一种文本纠错方法、 装 置、 电子终端及存储介质, 该方法包括: 接收待纠 错文本, 确定所述待纠错文本中各字符的词向 量; 对各所述词向量进行特征提取, 得到各特征 向量; 根据所述各特征向量, 确定对应的各字符 的分类; 将所述分类为预设分类的字符作为目标 字符, 并将所述目标字 符对应的词向量和特征值 向量进行拼接, 得到各拼接向量; 其中, 所述预设 分类为在所述待纠错文本所属领域中有语义的 分类; 根据所述各拼接向量生 成纠错后的目标文 本。 通过在进行文本纠错前, 先从各字符中筛选 出所属领域中有语义的目标字 符, 能够带有明确 应用意图地进行文本纠错, 不仅可避免基于规则 模板进行文本纠错, 还能够提高纠错的准确率。 权利要求书2页 说明书9页 附图3页 CN 115358216 A 2022.11.18 CN 115358216 A 1.一种文本纠错方法, 其特 征在于, 包括: 接收待纠错文本, 确定所述待纠错文本中各字符的词向量; 对各所述词向量进行 特征提取, 得到各 特征向量; 根据所述各 特征向量, 确定对应的各字符的分类; 将所述分类为预设分类的字符作为目标字符, 并将所述目标字符对应的词向量和特征 值向量进 行拼接, 得到各拼接向量; 其中, 所述预设分类为在所述待纠错文本所属领域中有 语义的分类; 根据所述各拼接向量 生成纠错后的目标文本 。 2.根据权利要求1所述的方法, 其特征在于, 所述确定所述待纠错文本中各字符的词向 量, 包括: 将所述待纠错文本输入至少一个语言模型中, 通过所述至少一个语言模型生成所述待 纠错文本中各字符的子词向量; 将所述子词向量进行 带权拼接, 得到所述各字符的词向量; 其中, 所述至少一个 语言模型在所述待纠错文本所属领域的语料 上训练得到 。 3.根据权利要求1所述的方法, 其特 征在于, 所述对各 所述词向量进行 特征提取, 包括: 将各所述词向量输入由至少一个特征提取网络构 成的第一目标网络 中, 通过所述第 一 目标网络对各 所述词向量进行 特征提取。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述各特征向量, 确定对应的各 字符的分类, 包括: 将所述各特征向量输入分类器中, 通过所述分类器输出与各所述特征向量对应的各字 符的分类; 其中, 所述分类器在所述待纠 错文本所属领域的语料以及所述语料对应的标签上, 进 行监督训练得到 。 5.根据权利要求1所述的方法, 其特征在于, 所述将所述目标字符对应的词向量和特征 值向量进行拼接, 包括: 根据所述目标字符在所述待纠错文本 中的位置, 从所述各字符的词向量与 所述各特征 向量中, 确定对应的词向量和特 征向量; 将所述对应的词向量和特 征向量进行拼接 。 6.根据权利要求1中所述的方法, 其特征在于, 所述根据 所述各拼接向量生成纠错后的 目标文本, 包括: 将所述各拼接向量输入由至少一个文本生成网络构 成的第二目标网络中, 通过所述第 二目标网络生成纠错后的目标文本 。 7.根据权利要求1 ‑6中任一所述的方法, 其特征在于, 所述待纠错文本为识别语音数据 得到的文本 。 8.一种文本纠错装置, 其特 征在于, 包括: 词向量确定模块, 用于 接收待纠错文本, 确定所述待纠错文本中各字符的词向量; 特征向量确定模块, 用于对各 所述词向量进行 特征提取, 得到各 特征向量; 分类模块, 用于根据所述各 特征向量, 确定对应的各字符的分类; 拼接模块, 用于将所述分类为预设分类的字符作为目标字符, 并将所述目标字符对应权 利 要 求 书 1/2 页 2 CN 115358216 A 2的词向量和特征值向量进 行拼接, 得到各拼接向量; 其中, 所述预设分类为在所述待纠错文 本所属领域中有语义的分类; 文本生成模块, 用于根据所述各拼接向量 生成纠错后的目标文本 。 9.一种电子终端, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7中任一所述的文本纠 错方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器 执行时实现如权利要求1 ‑7中任一所述的文本纠错方法。权 利 要 求 书 2/2 页 3 CN 115358216 A 3

PDF文档 专利 一种文本纠错方法、装置、电子终端及存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种文本纠错方法、装置、电子终端及存储介质 第 1 页 专利 一种文本纠错方法、装置、电子终端及存储介质 第 2 页 专利 一种文本纠错方法、装置、电子终端及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。