专利 文本分类方法、装置和存储介质及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210366939.4 (22)申请日 2022.04.08 (71)申请人腾讯科技（深圳）有限公司地址 518000 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人张旭　周德宇　张倩汶　曹云波　 (74)专利代理机构北京康信知识产权代理有限责任公司 1 1240 专利代理师周婷婷 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称文本分类方法、装置和存储介质及电子设备 (57)摘要本申请公开了一种文本分类方法、装置和存储介质及电子设备，本发明实施例可应用于人工智能场景中，还可涉及语义理解、机器人回答等技术。其中，该方法包括：响应于对待分类文本的文本分类指令，将待分类文本输入目标编码器，其中，目标编码器为利用携带有第一目标标签的样本文本数据进行训练得到的、用于提取文本的语义特征的编码网络模型，第一目标标签用于标识样本文本数据的N个特征类别， N为自然数；在得到目标编码器输出的目标语义特征的情况下，将目标语义特征输入第一分类器，得到第一文本分类结果。本申请解决了文本分类准确性较低的技术问题。权利要求书3页说明书25页附图7页 CN 115129861 A 2022.09.30 CN 115129861 A 1.一种文本分类方法，其特征在于，包括：响应于对待分类文本的文本分类指令，将所述待分类文本输入目标编码器，其中，所述目标编码器为利用携带有第一目标标签的样本文本数据进行训练得到的、用于提取文本的语义特征的编码网络模型，所述第一目标标签用于标识所述样本文本数据的N个特征类别，所述N为自然数；在得到所述目标编码器输出的目标语义特征的情况下，将所述目标语义特征输入第一分类器，得到第一文本分类结果，其中，所述第一分类器为利用携带有第二目标标签的样本文本数据进行训练得到的、用于对文本进行分类的分类网络模型，所述第二目标标签用于标识所述样本文本数据的M个特征类别，所述M为小于所述 N的自然数。 2.根据权利要求1所述的方法，其特征在于，在所述响应于对待分类文本的文本分类指令，将所述待分类文本输入目标编码器之前，包括：获取由初始的目标编码器以及第二分类器构成的第一网络结构；利用所述携带有第一目标标签的样本文本数据训练所述第一网络结构，得到训练好的所述目标编码器；获取由所述目标编码器以及初始的第一分类器构成的第二网络结构；利用所述携带有第二目标标签的样本文本数据训练所述第二网络结构，得到训练好的所述第一分类器。 3.根据权利要求2所述的方法，其特征在于，所述利用所述携带有第一目标标签的样本文本数据训练所述第一网络结构，得到训练好的所述目标编码器，包括：重复以下步骤，直至得到所述目标编码器：从多个第一样本文本数据中确定出当前第一样本文本数据，其中，所述第一样本文本数据为携带有所述第一目标标签的样本文本数据；将所述当前第一样本文本数据输入当前目标编码器，得到所述当前目标编码器输出的当前第一输出结果；在所述当前第一输出结果满足第一收敛条件的情况下，将所述当前目标编码器确定为所述目标编码器；在所述当前第一输出结果不满足所述第一收敛条件的情况下，从所述多个第一样本文本数据中选择下一第一样本文本数据确定所述当前第一样本文本数据。 4.根据权利要求2所述的方法，其特征在于，所述利用所述携带有第一目标标签的样本文本数据训练所述第一网络结构，得到训练好的所述目标编码器，包括：重复以下步骤，直至得到所述目标编码器：从多个第一样本文本数据中确定出当前第一样本文本数据，其中，所述第一样本文本数据为携带有所述第一目标标签的样本文本数据；将所述当前第一样本文本数据输入当前目标编码器，得到所述当前目标编码器输出的当前第一输出结果；将所述当前第一输出结果输入当前第二分类器，得到所述当前第二分类器输出的当前第二输出结果；在所述当前第二输出结果满足第二收敛条件的情况下，将所述当前目标编码器确定为所述目标编码器；权　利　要　求　书 1/3 页 2 CN 115129861 A 2在所述当前第二输出结果不满足所述第二收敛条件的情况下，从所述多个第一样本文本数据中选择下一第一样本文本数据确定所述当前第一样本文本数据。 5.根据权利要求2所述的方法，其特征在于，所述利用所述携带有第二目标标签的样本文本数据训练所述第二网络结构，得到训练好的所述第一分类器，包括：重复以下步骤，直至得到所述第一分类器：从多个第二样本文本数据中确定出当前第二样本文本数据，其中，所述第二样本文本数据为标记有所述第二目标标签的样本文本数据；将所述当前第二样本文本数据输入所述目标编码器，得到所述目标编码器输出的编码输出结果；将所述编码输出结果输入当前第一分类器，得到所述当前第一分类器输出的当前第三输出结果；在所述当前第三输出结果满足第三收敛条件的情况下，将所述当前第一分类器确定为所述第一分类器；在所述当前第三输出结果不满足所述第三收敛条件的情况下，从所述多个第二样本文本数据中选择下一第二样本文本数据确定所述当前第二样本文本数据。 6.根据权利要求1所述的方法，其特征在于，在所述响应于对待分类文本的文本分类指令，将所述待分类文本输入目标编码器之后，包括：在得到所述目标语义特征的情况下，将所述目标语义特征输入第三分类器，得到第二文本分类结果，其中，所述第三分类器为利用所述第一目标标签的样本文本数据进行训练得到的、用于对文本进行分类的分类网络模型；计算所述第二文本分类结果以及所述第一文本分类结果，得到目标文本分类结果。 7.根据权利要求6所述的方法，其特征在于，所述计算所述第二文本分类结果以及所述第一文本分类结果，得到目标文本分类结果，包括：获取所述第一分类器对应的第一计算权重以及所述第三分类器对应的第二计算权重；利用所述第一计算权重以及所述第二计算权重整合计算所述第一文本分类结果以及所述第二文本分类结果，得到所述目标文本分类结果。 8.根据权利要求1至7中任一项所述的方法，其特征在于，在所述响应于对待分类文本的文本分类指令，将所述待分类文本输入目标编码器之前，包括：获取所述第二目标标签对应的所述M个特征类别；在所述M个第一特征类别的基础上补充P个目标特征类别，得到所述N个特征类别，其中，所述目标特征类别不同于所述M个特征类别中的特征类别；根据所述 N个特征类别确定所述第一目标标签。 9.一种文本分类方法，其特征在于，包括：获取初始的目标编码器、第一分类器以及第二分类器，其中，所述目标编码器为用于提取文本的语义特征的编码网络模型，所述第一分类器和所述第二分类器为用于对文本进行分类的分类网络模型；在确定出由初始的目标编码器以及第二分类器构成的第一网络结构的情况下，利用携带有第一目标标签的样本文本数据训练所述第一网络结构，得到训练好的目标编码器，其中，所述第一目标标签用于标识所述样本文本数据的N个特征类别，所述 N为自然数；权　利　要　求　书 2/3 页 3 CN 115129861 A 3

专利 文本分类方法、装置和存储介质及电子设备

专利文本分类方法、装置和存储介质及电子设备