安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210986062.9 (22)申请日 2022.08.16 (71)申请人 上海浦东发展银行股份有限公司 地址 200000 上海市黄浦区中山 东一路12 号 (72)发明人 杨桂秀 郭林海 万化 张琛 喻燕君 杨洋 (74)专利代理 机构 北京品源专利代理有限公司 11332 专利代理师 黄立伟 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种文本纠错方法、 装置、 电子终端及存储 介质 (57)摘要 本发明实施例公开了一种文本纠错方法、 装 置、 电子终端及存储介质, 该方法包括: 接收待纠 错文本, 确定所述待纠错文本中各字符的词向 量; 对各所述词向量进行特征提取, 得到各特征 向量; 根据所述各特征向量, 确定对应的各字符 的分类; 将所述分类为预设分类的字符作为目标 字符, 并将所述目标字 符对应的词向量和特征值 向量进行拼接, 得到各拼接向量; 其中, 所述预设 分类为在所述待纠错文本所属领域中有语义的 分类; 根据所述各拼接向量生 成纠错后的目标文 本。 通过在进行文本纠错前, 先从各字符中筛选 出所属领域中有语义的目标字 符, 能够带有明确 应用意图地进行文本纠错, 不仅可避免基于规则 模板进行文本纠错, 还能够提高纠错的准确率。 权利要求书2页 说明书9页 附图3页 CN 115358216 A 2022.11.18 CN 115358216 A 1.一种文本纠错方法, 其特 征在于, 包括: 接收待纠错文本, 确定所述待纠错文本中各字符的词向量; 对各所述词向量进行 特征提取, 得到各 特征向量; 根据所述各 特征向量, 确定对应的各字符的分类; 将所述分类为预设分类的字符作为目标字符, 并将所述目标字符对应的词向量和特征 值向量进 行拼接, 得到各拼接向量; 其中, 所述预设分类为在所述待纠错文本所属领域中有 语义的分类; 根据所述各拼接向量 生成纠错后的目标文本 。 2.根据权利要求1所述的方法, 其特征在于, 所述确定所述待纠错文本中各字符的词向 量, 包括: 将所述待纠错文本输入至少一个语言模型中, 通过所述至少一个语言模型生成所述待 纠错文本中各字符的子词向量; 将所述子词向量进行 带权拼接, 得到所述各字符的词向量; 其中, 所述至少一个 语言模型在所述待纠错文本所属领域的语料 上训练得到 。 3.根据权利要求1所述的方法, 其特 征在于, 所述对各 所述词向量进行 特征提取, 包括: 将各所述词向量输入由至少一个特征提取网络构 成的第一目标网络 中, 通过所述第 一 目标网络对各 所述词向量进行 特征提取。 4.根据权利要求1所述的方法, 其特征在于, 所述根据所述各特征向量, 确定对应的各 字符的分类, 包括: 将所述各特征向量输入分类器中, 通过所述分类器输出与各所述特征向量对应的各字 符的分类; 其中, 所述分类器在所述待纠 错文本所属领域的语料以及所述语料对应的标签上, 进 行监督训练得到 。 5.根据权利要求1所述的方法, 其特征在于, 所述将所述目标字符对应的词向量和特征 值向量进行拼接, 包括: 根据所述目标字符在所述待纠错文本 中的位置, 从所述各字符的词向量与 所述各特征 向量中, 确定对应的词向量和特 征向量; 将所述对应的词向量和特 征向量进行拼接 。 6.根据权利要求1中所述的方法, 其特征在于, 所述根据 所述各拼接向量生成纠错后的 目标文本, 包括: 将所述各拼接向量输入由至少一个文本生成网络构 成的第二目标网络中, 通过所述第 二目标网络生成纠错后的目标文本 。 7.根据权利要求1 ‑6中任一所述的方法, 其特征在于, 所述待纠错文本为识别语音数据 得到的文本 。 8.一种文本纠错装置, 其特 征在于, 包括: 词向量确定模块, 用于 接收待纠错文本, 确定所述待纠错文本中各字符的词向量; 特征向量确定模块, 用于对各 所述词向量进行 特征提取, 得到各 特征向量; 分类模块, 用于根据所述各 特征向量, 确定对应的各字符的分类; 拼接模块, 用于将所述分类为预设分类的字符作为目标字符, 并将所述目标字符对应权 利 要 求 书 1/2 页 2 CN 115358216 A 2的词向量和特征值向量进 行拼接, 得到各拼接向量; 其中, 所述预设分类为在所述待纠错文 本所属领域中有语义的分类; 文本生成模块, 用于根据所述各拼接向量 生成纠错后的目标文本 。 9.一种电子终端, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求 1‑7中任一所述的文本纠 错方法。 10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该程序被处理器 执行时实现如权利要求1 ‑7中任一所述的文本纠错方法。权 利 要 求 书 2/2 页 3 CN 115358216 A 3
专利 一种文本纠错方法、装置、电子终端及存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-03-03 12:07:07
上传分享
举报
下载
原文档
(579.7 KB)
分享
友情链接
DB3308-T 067-2020 “三衢味”区域公用品牌准入和管理规范 衢州市.pdf
法律法规 银川市建筑节能管理条例2011-12-12.pdf
T-CEC 725—2022 户用光伏发电与储能一体化系统技术要求.pdf
YD-T 1381-2022 IP网络技术要求 网络性能测量方法.pdf
GB-T 39997-2021 加油站埋地用热塑性塑料复合管道系统.pdf
法律法规 计算机信息网络国际联网安全保护管理办法2011-01-08.pdf
DB43-T 1956-2020 十字花科蔬菜黑斑病综合防治技术规程 湖南省.pdf
NIST.SP.800-53Ar4 Assessing Security and Privacy Controls in Federal Information Systems and Organizations.pdf
ISO TR 17987-5-2016.pdf
DB32-T 4535-2023 固定污染源废气 颗粒物快速监测技术规范 江苏省.pdf
GB-T 21064-2007 电子政务系统总体设计要求.pdf
DB11-T 2046.3-2022 智慧停车系统技术要求 第3部分:停车场 (库)管理模块 北京市.pdf
GB-T 22151-2008 国际货运代理作业规范.pdf
绿盟 IoT机顶盒恶意软件应急处置手册.pdf
GB-T 16604-2017 涤纶工业长丝.pdf
T-CCTA 20102—2023 纺织品 抗氧化能力的测定及评价 DPPH和ABTS法.pdf
GB-T 35290-2023 信息安全技术 射频识别 RFID 系统安全技术规范.pdf
YD-T 4177.3-2022 移动互联网应用程序(APP)收集使用个人信息最小必要评估规范 第3部分:图片信息.pdf
T-CESA 1045—2019 智能音箱技术规范.pdf
GB-T 32456-2015 橡胶塑料机械用电磁加热节能系统通用技术条件.pdf
1
/
15
评价文档
赞助2元 点击下载(579.7 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。