(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210384987.6
(22)申请日 2022.04.13
(65)同一申请的已公布的文献号
申请公布号 CN 114490951 A
(43)申请公布日 2022.05.13
(73)专利权人 长沙市智为信息技 术有限公司
地址 410000 湖南省长 沙市高新 开发区文
轩路27号麓谷钰园E6栋102号第五、 六
层
(72)发明人 李芳芳 苏朴真 黄惟 康占英
王青
(74)专利代理 机构 长沙惟盛赟鼎知识产权代理
事务所(普通 合伙) 43228
专利代理师 黄敏华(51)Int.Cl.
G06F 16/33(2019.01)
G06F 16/35(2019.01)
G06F 40/289(2020.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
审查员 周嘉艺
(54)发明名称
一种多标签文本分类方法及模型
(57)摘要
本发明公开了一种多标签文本分类方法及
模型, 分类方法包括标签预适应任务, 根据多标
签文本分类的输入数据, 得到预适应嵌入的特征
表示, 进而进行相似度匹配; 共享特征 获取, 根据
多标签文本分类的输入数据, 以及对 标签预适应
任务中的预训练语 言模型进行权重加载, 得到共
享特征表示; 并行分类任务, 利用共享特征表示
作为并行任务的输入, 并行任务包括篇章 ‑标签
分类任务、 关键词 ‑标签分类任务以及标签 ‑标签
相关性判断任务; 分类模型包括标签预适应模
块、 共享特征获取模块、 关键词抽取模块、 标签采
样模块、 篇章 ‑标签分类模块、 关键词 ‑标签分类
模块、 以及标签 ‑标签相关性判断模块。 本发明增
加了并行任务, 提升 了模型的性能。
权利要求书3页 说明书10页 附图12页
CN 114490951 B
2022.07.08
CN 114490951 B
1.一种多标签文本分类方法, 其特 征在于, 包括如下步骤:
标签预适应任务;
S1: 对多标签文本分类的输入数据进行扩充, 所述输入数据包括文本和标签;
S2: 根据扩充后的输入数据, 采用嵌入方法将文本和部分标签进行嵌入, 得到预适应嵌
入表示;
S3: 将预适应嵌入表示输入至预训练语言模型中, 得到预适应嵌入的特征表示, 进而通
过特征表示融合层和全连接层进 行相似度匹配, 使得预训练语言模型能够学习到标签与预
适应嵌入表示之间的唯一映射;
共享特征获取;
S4: 根据多标签文本分类的输入数据, 采用嵌入方法将文本和全量标签进行嵌入, 得到
共享嵌入表示;
S5: 对标签预适应任务中的预训练语言模型进行权重加载, 得到加载后的预训练语言
模型, 将所述共享嵌入表示输入至加载后预训练语言模型中, 得到共享特 征表示;
并行分类任务;
S6: 利用所述共享特征表示作为并行任务的输入, 所述并行任务包括篇章 ‑标签分类任
务、 关键词 ‑标签分类任务以及标签 ‑标签相关性判断任务, 所述篇章 ‑标签分类任务和关键
词‑标签分类任务用于对多标签文本进 行分类, 所述标签 ‑标签相关性判断任务用于辅助篇
章‑标签分类任务和关键词 ‑标签分类任务更好 地利用标签信息 。
2.根据权利要求1所述的一种多标签文本分类方法, 其特征在于, S1中, 所述嵌入方法
通过以分隔符作为分隔, 将标签嵌入输入数据中, 得到嵌入表示。
3.根据权利要求2所述的一种 多标签文本分类方法, 其特征在于, 所述嵌入方法包括映
射方法, 所述映射方法为输入数据中以字为单位的映射, 在所述映射方法中每一个位的值
都在词表中有与之唯一对应的字, 通过将标签进行唯一映射, 拼接 至嵌入表示中。
4.根据权利要求1所述的一种多标签文本分类方法, 其特征在于, S1中, 对多标签文本
分类的输入数据进行扩充, 将每一条文本数据Text_i中对应的标签Label_i_1、 Label_i_
2、……、 Label_i_n, 记为Label_i+, n为文本数据对应的标签个数; 其余的标签记为Label_
i‑, 对于每一条多标签数据生成一条正样本[Text_i, Label_ i+, 1]、 以及多条负样本
[Text_i, Label_i_k, 0], Label_i_k∈Label_i ‑。
5.根据权利要求1所述的一种 多标签文本分类方法, 其特征在于, S5还包括对于加载完
标签预适应任务中预训练语言模型的权重后所生成的特征表示, 所述特征表示包括文本特
征表示和标签特征表示, 将文本特征表示通过关键词抽取模块进行处理, 将标签特征表示
通过标签采样模块进行处 理, 最终得到共享特 征表示。
6.根据权利要求1所述的一种 多标签文本分类方法, 其特征在于, S6 中, 篇章‑标签分类
任务包括 步骤:
步骤一: 当前 预训练语言模型加载 标签预适应任务中的与训练语言模型的权 重;
步骤二: 将文本和全量标签一同进行嵌入, 得到共享嵌入表示, 进而输入至当前预训练
语言模型中, 得到共享特征表 示, 所述共享特征表示包括篇章特征、 关键词特征以及标签特
征;
步骤三: 将篇章特征依次与每个标签特征组成篇章 ‑标签特征对, 并通过注意力结构得权 利 要 求 书 1/3 页
2
CN 114490951 B
2到每个标签在篇 章‑标签特征对特征向量中的关联性、 重要性占比;
步骤四: 根据得到的关联性、 重要性占比进行多标签分类。
7.根据权利要求5所述的一种多标签文本分类方法, 其特征在于, 关键词 ‑标签分类任
务包括步骤:
步骤一: 当前 预训练语言模型加载 标签预适应任务中的与训练语言模型的权 重;
步骤二: 将文本和全量标签一同进行嵌入, 得到共享嵌入表示, 进而输入至当前预训练
语言模型中, 得到共享特征表 示, 所述共享特征表示包括篇章特征、 关键词特征以及标签特
征;
步骤三: 将所述关键词抽取模块得到的关键词特征依次与每个标签特征组成特征对,
进而通过注意力结构得到每个标签在关键词 ‑标签特征对特征向量中的关联性、 重要性占
比;
步骤四: 根据得到的关联性、 重要性占比进行多标签分类。
8.根据权利要求5所述的一种 多标签文本分类方法, 其特征在于, S6 中, 标签‑标签相关
性判断任务包括 步骤:
步骤一: 对于所有的数据进行统计分析, 得到每 个标签对应其 余标签同时出现的占比;
步骤二: 根据多标签文本分类的输入数据对标签进行划分, 对于每条数据Text_i中对
应的相关标签, 划分为相关标签集合, 记为Relation_i+, 其余的不相关标签划分为无关标
签集合, 记为Relati on_i‑;
步骤三: 根据步骤一得到的占比, 以及步骤二得到的标签集合, 生成标签相关性判断任
务的数据子集; 对于Relation_i+中的每一个标签Y+j, j=0,1,...,Num(Relation_i+), 生成
正样本: [Y+j,Y+k, 1], j≠k, 且占比 (Y+j:Y+k) >设定阈值; 负样本: [Y+j,Y ‑k, 0], 占比 (Y+
j:Y‑k) <设定阈值;
步骤四: 根据数据子集进行 标签‑标签相关性判断任务, 优化标签特 征表示。
9.根据权利要求8所述的一种 多标签文本分类方法, 其特征在于, 所述数据包括训练集
数据、 验证集数据、 以及测试集数据。
10.一种多标签文本分类模型, 引用了权利要求1 ‑9任一项所述的一种 多标签文本分类
方法, 其特征在于, 包括: 标签预适应模块、 共享特征获取模块、 关键词抽取模块、 标签采样
模块、 篇章‑标签分类模块、 关键词 ‑标签分类模块、 以及标签 ‑标签相关性判断模块;
所述标签预适应模块用于根据多标签文本分类的输入数据得到标签 ‑文本的相似度;
所述共享特征获取模块用于根据多标签文本分类的输入数据得到共享特征表示, 所述
共享特征表示包括 篇章特征、 关键词特 征以及标签特 征;
所述关键词抽取模块用于对加载完标签预适应任务中预训练语言模型的权重后所生
成的特征表示中的文本特 征表示进行处 理;
所述标签采样模块用于对加载完标签预适应任务中预训练语言模型的权重后所生成
的特征表示中的标签特 征表示进行处 理;
所述篇章 ‑标签分类模块用于根据多标签文本分类的输入数据得到篇章 ‑标签特征对,
进而进行多标签分类;
所述关键词 ‑标签分类模块用于根据多标签文本分类的输入数据得到关键词 ‑标签特
征对, 进而进行多标签分类;权 利 要 求 书 2/3 页
3
CN 114490951 B
3
专利 一种多标签文本分类方法及模型
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:08上传分享