安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210506361.8 (22)申请日 2022.05.10 (71)申请人 网易(杭州)网络有限公司 地址 310052 浙江省杭州市滨江区网商路 599号网易大厦 (72)发明人 蔡子健 陈泽 (74)专利代理 机构 北京超凡宏宇专利代理事务 所(特殊普通 合伙) 11463 专利代理师 彭星 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/30(2020.01) G06F 40/35(2020.01) G06F 16/35(2019.01) G06F 40/205(2020.01)G06F 40/289(2020.01) G06N 3/08(2006.01) (54)发明名称 文本纠错模 型的训练方法及装置、 文本纠错 方法及装置 (57)摘要 本申请提供了一种文本纠错模型的训练方 法及装置、 文本纠错方法及装置, 所述训练方法 包括: 先使用通用文本数据对语言模 型进行基本 训练, 再使用目标领域下的专有文本数据对语言 模型进行微调训练, 然后, 通过与目标服务对象 之间进行数据交互的方式, 使用目标领域下较为 成熟的目标服务对象, 来对文本纠错模型进行交 互辅助性训练。 这样, 本申请可 以在不损失泛化 文本纠错能力的前提下, 训练模 型快速适应复杂 而独特的语言环境, 从而提高模 型在目标领域下 的文本纠错准确率。 与之相应的, 本申请中训练 好的文本纠错模型可以对目标服务对象应用过 程中涉及的文本数据进行文本纠错处理, 有利于 提高目标服务对象的运行效率 以及输出结果的 准确程度。 权利要求书6页 说明书33页 附图11页 CN 114861636 A 2022.08.05 CN 114861636 A 1.一种文本纠错模型的训练方法, 其特征在于, 所述文本纠错模型用于为目标领域下 的目标服务对 象提供文本纠错服务; 其中, 所述 目标服务对 象属于所述 目标领域下已收敛 的成熟算法模型; 所述训练方法包括: 利用无语义标记 的第一训练文本对语言模型进行预训练, 得到第一语言表征模型; 其 中, 所述第一训练文本包括所述目标领域下的特定文本数据以及所述目标领域之外的通用 文本数据; 利用所述目标领域下已语义标记的第 二训练文本对所述第 一语言表征模型进行训练, 得到具备目标文本特征识别能力的第二语言表征模型; 其中, 所述 目标文本特征用于表征 文本数据在所述目标 领域下特有的语义特 征和/或文字表达特 征; 将所述目标服务对象在训练过程中输入或者输出的第三训练文本输入至所述第二语 言表征模型中, 得到所述第二语言表征模型输出的对所述第三训练文本进 行文本纠错处理 后的更正训练文本; 根据所述目标服务对象基于所述第三训练文本得到的更正前输出结果以及所述目标 服务对象基于所述更正训练文本得到的更正后输出结果, 获取所述目标服务对象的模型输 出结果在更正前后产生的正向偏差/负向偏差, 并根据所述正向偏差/负向偏差对所述第二 语言表征模型的模型参数进行调整, 得到包括调整好的模型参数的文本纠错模型。 2.根据权利要求1所述的训练方法, 其特征在于, 所述利用无语义标记的第 一训练文本 对语言模型进行 预训练, 得到第一语言表征模型, 包括: 通过随机采样的方式, 对所述第一训练文本中第一目标数量的分词进行掩码遮蔽, 得 到包括第一 目标数量遮蔽词的第一遮蔽训练文本; 其中, 所述第一 目标数量是根据所述 随 机采样的采样比例与所述第一训练文本中包括的分词数量确定的; 将所述第一遮蔽训练文本输入至所述语言模型中, 得到所述语言模型输出的包括第 一 目标数量遮蔽词的预测结果的第一遮蔽预测文本; 利用所述第一遮蔽预测文本与未进行掩码遮蔽的所述第一训练文本之间的交叉熵损 失, 调整所述语言模 型的模型参数, 直至所述语言模型达到收敛, 并将达到收敛后的所述语 言模型作为所述第一语言表征模型。 3.根据权利要求1所述的训练方法, 其特征在于, 所述利用无语义标记的第 一训练文本 对语言模型进行 预训练, 得到第一语言表征模型, 还 包括: 按照第一预设采样比例, 对所述第 一训练文本 中属于所述特定文本数据的第 二目标数 量的分词进 行掩码遮蔽, 得到包括第二目标数量遮蔽词的第二遮蔽训练文本; 其中, 所述第 二目标数量是根据所述第一预设采样比例与所述第一训练文本中属于所述特定文本数据 的分词数量确定的; 将所述第二遮蔽训练文本输入至所述语言模型中, 得到所述语言模型输出的包括第 二 目标数量遮蔽词的预测结果的第二遮蔽预测文本; 利用所述第二遮蔽预测文本与未进行掩码遮蔽的所述第一训练文本之间的交叉熵损 失, 调整所述语言模 型的模型参数, 直至所述语言模型达到收敛, 并将达到收敛后的所述语 言模型作为所述第一语言表征模型。 4.根据权利要求1所述的训练方法, 其特征在于, 所述利用所述目标领域下已语义标记 的第二训练文本对所述第一语言表征模型进 行训练至少包括: 利用所述目标领域下已语义权 利 要 求 书 1/6 页 2 CN 114861636 A 2标记的第二训练文本对所述第一语言表征模型进 行粗粒度训练和/或细粒度训练; 其中, 所 述粗粒度训练用于训练所述第一语言表征模型根据所述目标领域下同一语义概念对应的 不同文字表达方式, 对所述第二训练文本中同一所述语义概念下 的不同语句进行分类; 所 述细粒度训练用于训练所述第一语言表征模型根据所述第二训练文本中每一语句在所述 目标领域下的分词序列标记结果, 对每一语句在所述目标领域下的文字表达方式进行识 别。 5.根据权利要求4所述的训练方法, 其特征在于, 通过以下方法对所述第 一语言表征模 型进行所述粗粒度训练: 针对所述第 二训练文本 中的任意两个语句, 将所述任意两个语句去除已有的所述语义 标记后的原始版本语句输入至所述第一语言表征模型中, 通过所述第一语言表征模型对所 述任意两个语句是否对应所述目标领域下的同一语义概念进 行分类预测, 得到所述任意两 个语句的分类预测结果; 根据所述任意两个语句在所述第 二训练文本 中已有的所述语义标记, 确定所述任意两 个语句的真实分类结果; 其中, 所述真实分类结果用于表征所述任意两个语句是否对应所 述目标领域下的同一语义 概念; 利用所述分类预测结果与 所述真实分类结果之间的交叉熵损失, 调 整所述第 一语言表 征模型的模型参数, 直至所述第一语言表征模型达 到收敛。 6.根据权利要求4所述的训练方法, 其特征在于, 通过以下方法对所述第 一语言表征模 型进行所述细粒度训练: 针对所述第 二训练文本 中的每一语句, 将该语句去除已有的所述语义标记后的原始版 本语句输入至所述第一语言表征模型中, 通过所述第一语言表征模型对该语句在所述目标 领域下的句子成分进 行分析, 得到该语句在所述目标领域下的语句分析结果; 其中, 所述句 子成分至少包括: 属于所述 目标领域下定义的实体的第一 目标分词, 以及能够表征所述 目 标领域下不同语义 概念的第二目标分词; 根据所述目标领域下定义的多个实体以及该语句中已有的所述语义标记, 对该语句中 包括的多个分词进行序列标记, 得到该语句的分词序列标记结果; 利用所述语句分析结果与 所述分词序列 标记结果之间的交叉熵损失, 调整所述第 一语 言表征模型的模型参数, 直至所述第一语言表征模型达 到收敛。 7.根据权利要求1所述的训练方法, 其特征在于, 所述将所述目标服务对象在训练过程 中输入或者输出的第三训练文本输入至所述第二语言表征模型中, 得到所述第二语言表征 模型输出的对所述第三训练文本进行文本纠错处 理后的更正训练文本, 包括: 针对所述第三训练文本中的每一语句, 将该语句输入至所述第二语言表征模型中, 得 到所述第二语言表征模型针对该语句的第一输出 结果; 在检测到所述第 一输出结果与该语句存在差异的情况下, 确定所述第 二语言表征模型 对该语句进行了所述文本纠错处 理, 并将所述第一输出 结果作为所述更正训练文本; 在检测到所述第 一输出结果与该语句相同的情况下, 则从所述第 三训练文本中获取下 一语句, 重复上述针对该语句的处 理步骤, 直至得到所述更正训练文本为止 。 8.根据权利要求1所述的训练方法, 其特征在于, 在所述得到所述第 二语言表征模型输 出的对所述第三训练文本进行文本纠错处理后的更正训练文本之后, 所述训练方法还包权 利 要 求 书 2/6 页 3 CN 114861636 A 3
专利 文本纠错模型的训练方法及装置、文本纠错方法及装置
文档预览
中文文档
51 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共51页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:51:14
上传分享
举报
下载
原文档
(1.8 MB)
分享
友情链接
GB-T 35561-2017 突发事件分类与编码.pdf
GB-T 1425-2021 贵金属及其合金熔化温度范围的测定 热分析试验方法.pdf
GB-T 35361-2017 潜水器钛合金对接焊缝超声波检测及质量分级.pdf
GB-T 36145-2018 建筑用不锈钢压型板.pdf
GB-T 36465-2018 网络终端操作系统总体技术要求.pdf
GB-T 14272-2021 羽绒服装.pdf
GB 25971-2010 六氟丙烷(HFC236fa)灭火剂.pdf
GB-T 39276-2020 信息安全技术 网络产品和服务安全通用要求.pdf
GB-T 15843.6-2018 信息技术 安全技术 实体鉴别 第6部分:采用人工数据传递的机制.pdf
GB-T 24265-2014 工业用硅藻土助滤剂.pdf
T-CRHA 015—2023 成人经鼻高流量氧疗护理规范.pdf
GB-T 8239-2014 普通混凝土小型砌块.pdf
GB-T 20147.3-2023 色度学 第3部分:CIE三刺激值.pdf
NY-T 3544-2020 烟粉虱测报技术规范 露地蔬菜.pdf
Fortify_TaxonomyofSoftwareSecurityErrors Foritfy 7种软件安全错误分类法 英文版 .pdf
ISO 31101 2023 Robotics — Application services provided by service robots — Safety man.pdf
GD-J 037-2011 广播电视相关信息系统安全等级保护定级指南.pdf
DL-T 884-2019 火电厂金相检验与评定技术导则.pdf
T-QGCML 303—2022 能源企业数字化转型实施指南.pdf
GB-T 25712-2010 振动时效工艺参数选择及效果评定方法.pdf
1
/
3
51
评价文档
赞助2.5元 点击下载(1.8 MB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。