专利 文本纠错模型的训练方法及装置、文本纠错方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210506361.8 (22)申请日 2022.05.10 (71)申请人网易(杭州)网络有限公司地址 310052 浙江省杭州市滨江区网商路 599号网易大厦 (72)发明人蔡子健　陈泽　 (74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 专利代理师彭星 (51)Int.Cl. G06F 40/232(2020.01) G06F 40/30(2020.01) G06F 40/35(2020.01) G06F 16/35(2019.01) G06F 40/205(2020.01)G06F 40/289(2020.01) G06N 3/08(2006.01) (54)发明名称文本纠错模型的训练方法及装置、文本纠错方法及装置 (57)摘要本申请提供了一种文本纠错模型的训练方法及装置、文本纠错方法及装置，所述训练方法包括：先使用通用文本数据对语言模型进行基本训练，再使用目标领域下的专有文本数据对语言模型进行微调训练，然后，通过与目标服务对象之间进行数据交互的方式，使用目标领域下较为成熟的目标服务对象，来对文本纠错模型进行交互辅助性训练。这样，本申请可以在不损失泛化文本纠错能力的前提下，训练模型快速适应复杂而独特的语言环境，从而提高模型在目标领域下的文本纠错准确率。与之相应的，本申请中训练好的文本纠错模型可以对目标服务对象应用过程中涉及的文本数据进行文本纠错处理，有利于提高目标服务对象的运行效率以及输出结果的准确程度。权利要求书6页说明书33页附图11页 CN 114861636 A 2022.08.05 CN 114861636 A 1.一种文本纠错模型的训练方法，其特征在于，所述文本纠错模型用于为目标领域下的目标服务对象提供文本纠错服务；其中，所述目标服务对象属于所述目标领域下已收敛的成熟算法模型；所述训练方法包括：利用无语义标记的第一训练文本对语言模型进行预训练，得到第一语言表征模型；其中，所述第一训练文本包括所述目标领域下的特定文本数据以及所述目标领域之外的通用文本数据；利用所述目标领域下已语义标记的第二训练文本对所述第一语言表征模型进行训练，得到具备目标文本特征识别能力的第二语言表征模型；其中，所述目标文本特征用于表征文本数据在所述目标领域下特有的语义特征和/或文字表达特征；将所述目标服务对象在训练过程中输入或者输出的第三训练文本输入至所述第二语言表征模型中，得到所述第二语言表征模型输出的对所述第三训练文本进行文本纠错处理后的更正训练文本；根据所述目标服务对象基于所述第三训练文本得到的更正前输出结果以及所述目标服务对象基于所述更正训练文本得到的更正后输出结果，获取所述目标服务对象的模型输出结果在更正前后产生的正向偏差/负向偏差，并根据所述正向偏差/负向偏差对所述第二语言表征模型的模型参数进行调整，得到包括调整好的模型参数的文本纠错模型。 2.根据权利要求1所述的训练方法，其特征在于，所述利用无语义标记的第一训练文本对语言模型进行预训练，得到第一语言表征模型，包括：通过随机采样的方式，对所述第一训练文本中第一目标数量的分词进行掩码遮蔽，得到包括第一目标数量遮蔽词的第一遮蔽训练文本；其中，所述第一目标数量是根据所述随机采样的采样比例与所述第一训练文本中包括的分词数量确定的；将所述第一遮蔽训练文本输入至所述语言模型中，得到所述语言模型输出的包括第一目标数量遮蔽词的预测结果的第一遮蔽预测文本；利用所述第一遮蔽预测文本与未进行掩码遮蔽的所述第一训练文本之间的交叉熵损失，调整所述语言模型的模型参数，直至所述语言模型达到收敛，并将达到收敛后的所述语言模型作为所述第一语言表征模型。 3.根据权利要求1所述的训练方法，其特征在于，所述利用无语义标记的第一训练文本对语言模型进行预训练，得到第一语言表征模型，还包括：按照第一预设采样比例，对所述第一训练文本中属于所述特定文本数据的第二目标数量的分词进行掩码遮蔽，得到包括第二目标数量遮蔽词的第二遮蔽训练文本；其中，所述第二目标数量是根据所述第一预设采样比例与所述第一训练文本中属于所述特定文本数据的分词数量确定的；将所述第二遮蔽训练文本输入至所述语言模型中，得到所述语言模型输出的包括第二目标数量遮蔽词的预测结果的第二遮蔽预测文本；利用所述第二遮蔽预测文本与未进行掩码遮蔽的所述第一训练文本之间的交叉熵损失，调整所述语言模型的模型参数，直至所述语言模型达到收敛，并将达到收敛后的所述语言模型作为所述第一语言表征模型。 4.根据权利要求1所述的训练方法，其特征在于，所述利用所述目标领域下已语义标记的第二训练文本对所述第一语言表征模型进行训练至少包括：利用所述目标领域下已语义权　利　要　求　书 1/6 页 2 CN 114861636 A 2标记的第二训练文本对所述第一语言表征模型进行粗粒度训练和/或细粒度训练；其中，所述粗粒度训练用于训练所述第一语言表征模型根据所述目标领域下同一语义概念对应的不同文字表达方式，对所述第二训练文本中同一所述语义概念下的不同语句进行分类；所述细粒度训练用于训练所述第一语言表征模型根据所述第二训练文本中每一语句在所述目标领域下的分词序列标记结果，对每一语句在所述目标领域下的文字表达方式进行识别。 5.根据权利要求4所述的训练方法，其特征在于，通过以下方法对所述第一语言表征模型进行所述粗粒度训练：针对所述第二训练文本中的任意两个语句，将所述任意两个语句去除已有的所述语义标记后的原始版本语句输入至所述第一语言表征模型中，通过所述第一语言表征模型对所述任意两个语句是否对应所述目标领域下的同一语义概念进行分类预测，得到所述任意两个语句的分类预测结果；根据所述任意两个语句在所述第二训练文本中已有的所述语义标记，确定所述任意两个语句的真实分类结果；其中，所述真实分类结果用于表征所述任意两个语句是否对应所述目标领域下的同一语义概念；利用所述分类预测结果与所述真实分类结果之间的交叉熵损失，调整所述第一语言表征模型的模型参数，直至所述第一语言表征模型达到收敛。 6.根据权利要求4所述的训练方法，其特征在于，通过以下方法对所述第一语言表征模型进行所述细粒度训练：针对所述第二训练文本中的每一语句，将该语句去除已有的所述语义标记后的原始版本语句输入至所述第一语言表征模型中，通过所述第一语言表征模型对该语句在所述目标领域下的句子成分进行分析，得到该语句在所述目标领域下的语句分析结果；其中，所述句子成分至少包括：属于所述目标领域下定义的实体的第一目标分词，以及能够表征所述目标领域下不同语义概念的第二目标分词；根据所述目标领域下定义的多个实体以及该语句中已有的所述语义标记，对该语句中包括的多个分词进行序列标记，得到该语句的分词序列标记结果；利用所述语句分析结果与所述分词序列标记结果之间的交叉熵损失，调整所述第一语言表征模型的模型参数，直至所述第一语言表征模型达到收敛。 7.根据权利要求1所述的训练方法，其特征在于，所述将所述目标服务对象在训练过程中输入或者输出的第三训练文本输入至所述第二语言表征模型中，得到所述第二语言表征模型输出的对所述第三训练文本进行文本纠错处理后的更正训练文本，包括：针对所述第三训练文本中的每一语句，将该语句输入至所述第二语言表征模型中，得到所述第二语言表征模型针对该语句的第一输出结果；在检测到所述第一输出结果与该语句存在差异的情况下，确定所述第二语言表征模型对该语句进行了所述文本纠错处理，并将所述第一输出结果作为所述更正训练文本；在检测到所述第一输出结果与该语句相同的情况下，则从所述第三训练文本中获取下一语句，重复上述针对该语句的处理步骤，直至得到所述更正训练文本为止。 8.根据权利要求1所述的训练方法，其特征在于，在所述得到所述第二语言表征模型输出的对所述第三训练文本进行文本纠错处理后的更正训练文本之后，所述训练方法还包权　利　要　求　书 2/6 页 3 CN 114861636 A 3

专利 文本纠错模型的训练方法及装置、文本纠错方法及装置

专利文本纠错模型的训练方法及装置、文本纠错方法及装置