(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210264289.2
(22)申请日 2022.03.17
(71)申请人 内蒙古工业大 学
地址 010080 内蒙古自治区呼和浩特市土
默特左旗内蒙古工业大 学金川校区
(72)发明人 苏依拉 杨佩恒 杨蕾 邱占杰
司赟 朱苏东 仁庆道尔吉
吉亚图
(74)专利代理 机构 西安智大知识产权代理事务
所 61215
专利代理师 段俊涛
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/58(2020.01)
G06F 40/126(2020.01)G06F 40/284(2020.01)
G06F 40/289(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于预训练胶囊网络的蒙古语方面级
情感分析方法
(57)摘要
一种基于预训练胶囊网络的蒙古语方面级
情感分析方法, 收集整理语料, 构建汉蒙神经机
器翻译模型, 用汉蒙平行语料进行训练, 将有标
注的汉语情感语料翻译为蒙语情感语料; 基于深
度注意力胶囊网络构建用于预训练的模型, 用无
标注的蒙语文本语料对构建的模 型进行预训练,
得到预训练过的蒙语语言模型; 用蒙语情感语料
对蒙语语言模 型进行情感增强预训练; 最后利用
方面级蒙语文本情感语料对情感增强后的模型
进行微调, 本发 明可解决蒙古语有标注文本稀缺
的问题, 并提高了蒙古语情感分析 结果的精度。
权利要求书2页 说明书5页 附图4页
CN 114742064 A
2022.07.12
CN 114742064 A
1.一种基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在于, 包括如下步
骤:
步骤1, 收集整理语料, 所述语料包括无标注 的蒙语文本语料、 有标注 的汉语情感语料
和汉蒙平行语料, 所述有标注的汉语情感语料包括方面级 汉语情感语料;
步骤2, 构建汉蒙神经机器翻译模型, 用所述汉蒙平行语料对其进行训练;
步骤3, 用步骤2训练的汉蒙神经机器翻译模型将所述有标注的汉语情 感语料翻译为蒙
语情感语料;
步骤4, 构建用于预训练的模型, 所述用于预训练的模型采用深度注意力胶囊网络;
步骤5, 用所述无标注 的蒙语文本语料对步骤4中构建的模型进行预训练, 得到预训练
过的蒙语 语言模型;
步骤6, 用所述 蒙语情感语料对步骤5所 得模型进行情感增强预训练;
步骤7, 利用方面级汉语情感语料翻译得到的方面级蒙语文本情感语料, 对步骤6情感
增强后的模型进行微调。
2.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在
于, 所述步骤1中, 收集整理语料包括文本数据爬取和文本预处理; 所述文本预处理包括清
洗、 分词和构建蒙语词典; 其中, 清洗的内容包括: 去掉无用的标签、 特殊符号、 标点符号; 分
词是将蒙语文本分割成由token组成的列表; 构建蒙语词典是对所述列表进行词频统计并
按照词频排序, 将每 个蒙语单词映射 为词频排序的序号, 构建出蒙语单词到自然数的词典。
3.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在
于, 所述步骤2中, 汉蒙神经机器翻译模 型采用编码器 ‑解码器架构; 其中, 编码器采用ERNIE
预训练模型, 解码器采用Transformer解码器。
4.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在
于, 所述步骤4, 在深度注意力胶囊网络中加入残差连接以增强模型的泛化能力和鲁棒 性。
5.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在
于, 所述步骤4, 所述用于预训练的模型的结构如下:
1)模型的第一层为嵌入层, 将输入的文本序列中的每个token转为实数向量, 向量的长
度为超参数d;
2)对嵌入后的序列进行位置编码;
3)对位置编码后的序列用多头自注意力机制提取文本内的依赖关系;
4)多头自注意力的输出送入胶囊网络模块, 胶囊网络模块由两层胶囊组成, 每层包含
20个胶囊, 每 个胶囊有10个神经 元, 两层胶囊之间的交 互使用动态路由算法;
5)由3)和4)组成的多头自注意力加双 层胶囊的结构作为 一个模块, 重 叠n层;
6)之后加入最终的胶囊层用于分类, 将模型提取到的文本语义特征和情 感特征进行分
类, 从而判断文本的情感极性。
6.根据权利要求5所述基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在
于, 每个所述胶 囊的输出均为一个向量, 向量的方向代表某个特征的位置和姿态信息, 向量
的模长代表该特征存在的概率, 模长为0到1之间的实数, 低层胶囊的输出路由到高层胶囊
后, 通过挤压的方式将向量模长 压缩到0到1之间, 挤压公式为:
u1=W1v1,u2=W2v2权 利 要 求 书 1/2 页
2
CN 114742064 A
2s=c1u1+c2u2
其中, W1和W2为可学习的参数矩阵, v1和v2为低层胶囊输出的向量, c1和c2为低层特征向
量的权重, s为u1和u2的加权求和, u1和u2为可学习参数Wi和输入向量vi相乘得到的向量, 该
向量被编码了低层特征与高层特征之间的相 对位置关系, v3为高层胶囊根据v1和v2计算得
到的输出向量, v3的模长代 表更高级别特 征存在的概 率, 向量的方向代 表特征的位姿信息 。
7.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在
于, 所述步骤5进行 预训练时, 对部分单词进行遮蔽以及对下一句进行 预测, 方法如下:
1)随机选择第一比例的token进行遮蔽并使用来自上下文的token以自监督的方式预
测遮蔽的to ken;
2)预测下一句话, 以显示地建模文本对之间的逻辑关系, 在为预训练任务生成句子对
时, 有50%的概率它们是标签为 “真”的连续句子; 在另外50%的概率下, 第二个句子是从语
料库中随机抽取的, 标记为 “假”。
8.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在
于, 所述步骤5进行预训练时, 同时输入两个句子, 模型判断该两个句 子是否为相邻的两个
句子, 然后根据与真实值的损失进行梯度下降, 从而更新模型参数。
9.根据权利要求1所述基于预训练胶囊网络的蒙古语方面级情感分析方法, 其特征在
于, 所述步骤6, 采用情感MASK 策略对模型进行情感增强, 步骤如下:
1)MASK方面词‑情感词对, 在一个句子中, 最多只MASK两对, 且是随机的;
2)MASK情感词, 在一个句子中, 被MASK的token个数, 不能超过当前句子的token总数的
10%;
3)MASK通用字, 其执行的先决条件是, 所述MASK情感词所占的token比例没有达到
10%, MASK通用字的个数补充没有达 到10%的剩余个数。
10.根据权利要求1所述基于预训练胶囊 网络的蒙古语方面级情感分析方法, 其特征在
于, 所述步骤7, 对 模型进行 方面级情感分类微调, 使其收敛至任务的局部最优解处。权 利 要 求 书 2/2 页
3
CN 114742064 A
3
专利 一种基于预训练胶囊网络的蒙古语方面级情感分析方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:46:04上传分享