安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210447516.5 (22)申请日 2022.04.26 (71)申请人 河海大学 地址 211100 江苏省南京市江宁区佛城西 路8号 (72)发明人 朱李玥 戴梦瑶 刘文强 邢莉娟 柏雪嫣 (74)专利代理 机构 南京乐羽知行专利代理事务 所(普通合伙) 32326 专利代理师 李玉平 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/163(2020.01) G06F 40/166(2020.01) G06F 40/151(2020.01) G06F 40/53(2020.01) (54)发明名称 基于LDA和BERT融合改进模型的文本情感识 别方法 (57)摘要 本发明公开一种基于LDA和BERT融合改进模 型的文本情感识别方法, 该方法包括以下步骤: (1)获取社交网络文本, 进行预处理; (2)融合文 本的语义特征和主题特征, 输 出词向量矩阵; (3) 将特征输入双向Transformer编码器, 连接以梯 度优化改进后的Softmax层, 输出分类模型; (4) 向分类模型 投入正式语料, 微调参数, 改良模型。 使用得到的最终分类模型, 对社交网络文本进行 情感识别, 得到更精准识别结果。 权利要求书2页 说明书7页 附图2页 CN 114722835 A 2022.07.08 CN 114722835 A 1.一种基于LDA和BERT融合改进模型的文本情感识别方法, 其特征在于, 使用LDA主题 分析获取社交网络文本主题特征, 使用BERT模型获取文本语义特征, 将二者词向量拼接投 入情感分类模型, 使得模型对文本情感更精准识别, 输出优化的分类模型, 用于文本情感的 识别, 包括如下步骤: 步骤1: 获取 社交网络文本语料集, 并对文本预处 理; 步骤2: 将预处理后的文本语料集投入BERT预训练模型提取语义特征, 获得语义特征的 词向量矩阵; 步骤3: 将预处理后的文本语料集投入LDA模型提取主题特征扩展, 与步骤2中所得语义 特征的词向量进行拼接, 获得融合语义和主题特 征的词向量矩阵; 步骤4: 搭建情感分类器, 重新将融合语义和主题特征的词向量传入双向Transformer 编码器, 用梯度优化Softmax回归模 型连接Transformer输出的向量, 适配多种任务, 训练后 输出分类模型; 步骤5: 将用于深度测试的社交文本语料集投入分类器进行深度预训练, 评估模型性 能, 进行参数微调, 得到训练好的分类模型, 对文本的情感倾向分类。 2.根据权利 要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法, 其特征在 于, 所述步骤1中对文本预处 理的具体步骤 包括: 步骤S11: 文本清洗; 步骤S12: 分词和去除停用词: 根据中文停用词表去除无意义词汇, 然后再用jieba对文 本进行分词处 理; 步骤S13: 文本过 滤: 删除社交网络文本语料集中文本 长度不在设定 长度范围的文本 。 3.根据权利 要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法, 其特征在 于, 所述步骤2中, 通过BERT预训练模型对预处理后的文本语料集数据进行语义特征提取, 每个词被分别映射成3个向量和表示wij(ω+δ+ρ ), 3个向量即文本的词向量、 文本向量和位 置向量。 4.根据权利 要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法, 其特征在 于, 所述步骤3中, 将预处理后的文本语料集投入LDA模型提取主题特征扩展, 与步骤2中所 得语义特征的词向量进行拼接, 获得融合语 义和主题特征的词向量矩阵wij(ω+δ +ρ + μ ′), μ′ 为主题向量, 下文将该矩阵统称为词向量; 具体步骤 包括: 步骤S31: 统计文本语料集中的单词, 生成词典; 步骤S32: 利用Gensim模块内的LDA模型对语料进行训练, 再将得到的矩阵用tf ‑idf算 法加权处 理, 得到扩展的主题特 征向量; 步骤S33: 得到扩展的主题特征向量后, 与步骤2中所得语义特征的词向量进行拼接, 使 用向量拼接的方式完成主题力度下对文本的扩充, 这样就融合了BERT提取的语义特征和 LDA提取的主题特 征。 5.根据权利 要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法, 其特征在 于, 所述步骤4将步骤3中输出融合语义和主题特征的词向量传入Transformer编码器, 而 Transformer的输出则被梯度下降优化后的Softmax层连接, 用于适配多任务的执行, 具体 包括如下步骤: 步骤S1: 词向量 wij(ω+δ +ρ + μ ′)传入双向Transformer编码器;权 利 要 求 书 1/2 页 2 CN 114722835 A 2步骤S2: 词向量经 过Self‑Attention层, 首先计算Query、 Key、 Value矩阵; 步骤S3: 根据公式: 自注意力机制计算公式计算Attention, Softmax为归一化指数函 数, 使得输出的特 征元素和为1; 步骤S4: 设置注意力头he ad个数参数, 设置head=n, 则将n个S elf‑Attention矩阵横向 拼接, 最后使用附加的权 重矩阵与Self ‑Attention相乘使其压缩成一个矩阵。 步骤S5: 执行情感分类任务, 针对语料集中每个句子的词向量以及对应的样本类别, 接 入单层神经网络Softmax获取输出。 步骤S6: 执行Masked LM任务, 针对训练样本中的每个句子随机掩盖其中设定比例的词 用于预测, 按照设定比例用剩余的词预测被掩盖词部位的输出。 步骤S7: 执行NSP任务, 针对训练样本中的每个句子选取两个句子A和B, A为正确的下个 句子, B则为 错误的下个句子, 使用CLS令牌输出获取二进制 损失。 步骤S8: 输出初步的分类模型。 6.根据权利 要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法, 其特征在 于, 所述步骤5中将正式的语料集投入步骤4中搭建的分类器进 行训练, 设置初始 参数, 计算 精确率和召回率, 同时采用F1分数寻找 正负情感分类的阈值, 计算Loss函数, 作为模 型评估 的指标。权 利 要 求 书 2/2 页 3 CN 114722835 A 3
专利 基于LDA和BERT融合改进模型的文本情感识别方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:48:38
上传分享
举报
下载
原文档
(532.4 KB)
分享
友情链接
GB-T 39853.1-2021 供电系统中的电能质量测量 第1部分:电能质量监测设备(PQI).pdf
GB-T 24513.2-2010 金属和合金的腐蚀 室内大气低腐蚀性分类 第2部分:室内大气腐蚀性的测定.pdf
数据分类分级管理制度.pdf
奇安信 中国企业邮箱安全性研究报告.pdf
WS-T 796-2022 围手术期患者血液管理指南.pdf
GB-T 35681-2017 电力需求响应系统功能规范.pdf
信通院 应用程序接口-API数据安全研究报告-2020年.pdf
GB-T 33563-2017 信息安全技术 无线局域网客户端安全技术要求(评估保障级2级增强).pdf
GB-T 34027-2017 热连轧主传动十字轴式万向联轴器.pdf
GB-T 41131-2021 科技馆展览教育服务规范.pdf
GB-T 38590-2020 森林资源连续清查技术规程.pdf
T-CAAMM 23—2018 自走式喷杆喷雾机 技术条件.pdf
API安全发展白皮书.pdf
GB-T 22240-2020 网络安全等级保护定级指南.pdf
DB52-T 706-2011 杉木二元立木材积生长率表 贵州省.pdf
GB-T 2261.1-2003 个人基本信息分类与代码 第1部分人的性别代码.pdf
GB-T 29243-2012 信息安全技术 数字证书代理认证路径构造和代理验证规范.pdf
GB-T 23868-2019 体育用品的分类.pdf
炼石图解-网络数据安全风险评估实施指引V1.0.pdf
YD-T 4244-2023 电信网和互联网数据分类分级技术要求与测试方法.pdf
1
/
3
12
评价文档
赞助2.5元 点击下载(532.4 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。