专利 一种多标签文本分类方法及模型

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210384987.6 (22)申请日 2022.04.13 (65)同一申请的已公布的文献号申请公布号 CN 114490951 A (43)申请公布日 2022.05.13 (73)专利权人长沙市智为信息技术有限公司地址 410000 湖南省长沙市高新开发区文轩路27号麓谷钰园E6栋102号第五、六层 (72)发明人李芳芳　苏朴真　黄惟　康占英　王青　 (74)专利代理机构长沙惟盛赟鼎知识产权代理事务所(普通合伙) 43228 专利代理师黄敏华(51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) 审查员周嘉艺 (54)发明名称一种多标签文本分类方法及模型 (57)摘要本发明公开了一种多标签文本分类方法及模型，分类方法包括标签预适应任务，根据多标签文本分类的输入数据，得到预适应嵌入的特征表示，进而进行相似度匹配；共享特征获取，根据多标签文本分类的输入数据，以及对标签预适应任务中的预训练语言模型进行权重加载，得到共享特征表示；并行分类任务，利用共享特征表示作为并行任务的输入，并行任务包括篇章 ‑标签分类任务、关键词 ‑标签分类任务以及标签 ‑标签相关性判断任务；分类模型包括标签预适应模块、共享特征获取模块、关键词抽取模块、标签采样模块、篇章 ‑标签分类模块、关键词 ‑标签分类模块、以及标签 ‑标签相关性判断模块。本发明增加了并行任务，提升了模型的性能。权利要求书3页说明书10页附图12页 CN 114490951 B 2022.07.08 CN 114490951 B 1.一种多标签文本分类方法，其特征在于，包括如下步骤：标签预适应任务； S1：对多标签文本分类的输入数据进行扩充，所述输入数据包括文本和标签； S2：根据扩充后的输入数据，采用嵌入方法将文本和部分标签进行嵌入，得到预适应嵌入表示； S3：将预适应嵌入表示输入至预训练语言模型中，得到预适应嵌入的特征表示，进而通过特征表示融合层和全连接层进行相似度匹配，使得预训练语言模型能够学习到标签与预适应嵌入表示之间的唯一映射；共享特征获取； S4：根据多标签文本分类的输入数据，采用嵌入方法将文本和全量标签进行嵌入，得到共享嵌入表示； S5：对标签预适应任务中的预训练语言模型进行权重加载，得到加载后的预训练语言模型，将所述共享嵌入表示输入至加载后预训练语言模型中，得到共享特征表示；并行分类任务； S6：利用所述共享特征表示作为并行任务的输入，所述并行任务包括篇章 ‑标签分类任务、关键词 ‑标签分类任务以及标签 ‑标签相关性判断任务，所述篇章 ‑标签分类任务和关键词‑标签分类任务用于对多标签文本进行分类，所述标签 ‑标签相关性判断任务用于辅助篇章‑标签分类任务和关键词 ‑标签分类任务更好地利用标签信息。 2.根据权利要求1所述的一种多标签文本分类方法，其特征在于， S1中，所述嵌入方法通过以分隔符作为分隔，将标签嵌入输入数据中，得到嵌入表示。 3.根据权利要求2所述的一种多标签文本分类方法，其特征在于，所述嵌入方法包括映射方法，所述映射方法为输入数据中以字为单位的映射，在所述映射方法中每一个位的值都在词表中有与之唯一对应的字，通过将标签进行唯一映射，拼接至嵌入表示中。 4.根据权利要求1所述的一种多标签文本分类方法，其特征在于， S1中，对多标签文本分类的输入数据进行扩充，将每一条文本数据Text_i中对应的标签Label_i_1、 Label_i_ 2、……、 Label_i_n，记为Label_i+， n为文本数据对应的标签个数；其余的标签记为Label_ i‑，对于每一条多标签数据生成一条正样本[Text_i, Label_ i+, 1]、以及多条负样本 [Text_i, Label_i_k, 0]， Label_i_k∈Label_i ‑。 5.根据权利要求1所述的一种多标签文本分类方法，其特征在于， S5还包括对于加载完标签预适应任务中预训练语言模型的权重后所生成的特征表示，所述特征表示包括文本特征表示和标签特征表示，将文本特征表示通过关键词抽取模块进行处理，将标签特征表示通过标签采样模块进行处理，最终得到共享特征表示。 6.根据权利要求1所述的一种多标签文本分类方法，其特征在于， S6 中，篇章‑标签分类任务包括步骤：步骤一：当前预训练语言模型加载标签预适应任务中的与训练语言模型的权重；步骤二：将文本和全量标签一同进行嵌入，得到共享嵌入表示，进而输入至当前预训练语言模型中，得到共享特征表示，所述共享特征表示包括篇章特征、关键词特征以及标签特征；步骤三：将篇章特征依次与每个标签特征组成篇章 ‑标签特征对，并通过注意力结构得权　利　要　求　书 1/3 页 2 CN 114490951 B 2到每个标签在篇章‑标签特征对特征向量中的关联性、重要性占比；步骤四：根据得到的关联性、重要性占比进行多标签分类。 7.根据权利要求5所述的一种多标签文本分类方法，其特征在于，关键词 ‑标签分类任务包括步骤：步骤一：当前预训练语言模型加载标签预适应任务中的与训练语言模型的权重；步骤二：将文本和全量标签一同进行嵌入，得到共享嵌入表示，进而输入至当前预训练语言模型中，得到共享特征表示，所述共享特征表示包括篇章特征、关键词特征以及标签特征；步骤三：将所述关键词抽取模块得到的关键词特征依次与每个标签特征组成特征对，进而通过注意力结构得到每个标签在关键词 ‑标签特征对特征向量中的关联性、重要性占比；步骤四：根据得到的关联性、重要性占比进行多标签分类。 8.根据权利要求5所述的一种多标签文本分类方法，其特征在于， S6 中，标签‑标签相关性判断任务包括步骤：步骤一：对于所有的数据进行统计分析，得到每个标签对应其余标签同时出现的占比；步骤二：根据多标签文本分类的输入数据对标签进行划分，对于每条数据Text_i中对应的相关标签，划分为相关标签集合，记为Relation_i+，其余的不相关标签划分为无关标签集合，记为Relati on_i‑；步骤三：根据步骤一得到的占比，以及步骤二得到的标签集合，生成标签相关性判断任务的数据子集；对于Relation_i+中的每一个标签Y+j， j=0,1,...,Num(Relation_i+)，生成正样本： [Y+j,Y+k, 1]， j≠k，且占比（Y+j:Y+k） >设定阈值；负样本： [Y+j,Y ‑k, 0]，占比（Y+ j:Y‑k） <设定阈值；步骤四：根据数据子集进行标签‑标签相关性判断任务，优化标签特征表示。 9.根据权利要求8所述的一种多标签文本分类方法，其特征在于，所述数据包括训练集数据、验证集数据、以及测试集数据。 10.一种多标签文本分类模型，引用了权利要求1 ‑9任一项所述的一种多标签文本分类方法，其特征在于，包括：标签预适应模块、共享特征获取模块、关键词抽取模块、标签采样模块、篇章‑标签分类模块、关键词 ‑标签分类模块、以及标签 ‑标签相关性判断模块；所述标签预适应模块用于根据多标签文本分类的输入数据得到标签 ‑文本的相似度；所述共享特征获取模块用于根据多标签文本分类的输入数据得到共享特征表示，所述共享特征表示包括篇章特征、关键词特征以及标签特征；所述关键词抽取模块用于对加载完标签预适应任务中预训练语言模型的权重后所生成的特征表示中的文本特征表示进行处理；所述标签采样模块用于对加载完标签预适应任务中预训练语言模型的权重后所生成的特征表示中的标签特征表示进行处理；所述篇章 ‑标签分类模块用于根据多标签文本分类的输入数据得到篇章 ‑标签特征对，进而进行多标签分类；所述关键词 ‑标签分类模块用于根据多标签文本分类的输入数据得到关键词 ‑标签特征对，进而进行多标签分类；权　利　要　求　书 2/3 页 3 CN 114490951 B 3

专利 一种多标签文本分类方法及模型

专利一种多标签文本分类方法及模型