专利 基于LDA和BERT融合改进模型的文本情感识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210447516.5 (22)申请日 2022.04.26 (71)申请人河海大学地址 211100 江苏省南京市江宁区佛城西路8号 (72)发明人朱李玥　戴梦瑶　刘文强　邢莉娟　柏雪嫣　 (74)专利代理机构南京乐羽知行专利代理事务所(普通合伙) 32326 专利代理师李玉平 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06F 16/35(2019.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 40/163(2020.01) G06F 40/166(2020.01) G06F 40/151(2020.01) G06F 40/53(2020.01) (54)发明名称基于LDA和BERT融合改进模型的文本情感识别方法 (57)摘要本发明公开一种基于LDA和BERT融合改进模型的文本情感识别方法，该方法包括以下步骤： (1)获取社交网络文本，进行预处理； (2)融合文本的语义特征和主题特征，输出词向量矩阵； (3) 将特征输入双向Transformer编码器，连接以梯度优化改进后的Softmax层，输出分类模型； (4) 向分类模型投入正式语料，微调参数，改良模型。使用得到的最终分类模型，对社交网络文本进行情感识别，得到更精准识别结果。权利要求书2页说明书7页附图2页 CN 114722835 A 2022.07.08 CN 114722835 A 1.一种基于LDA和BERT融合改进模型的文本情感识别方法，其特征在于，使用LDA主题分析获取社交网络文本主题特征，使用BERT模型获取文本语义特征，将二者词向量拼接投入情感分类模型，使得模型对文本情感更精准识别，输出优化的分类模型，用于文本情感的识别，包括如下步骤：步骤1：获取社交网络文本语料集，并对文本预处理；步骤2：将预处理后的文本语料集投入BERT预训练模型提取语义特征，获得语义特征的词向量矩阵；步骤3：将预处理后的文本语料集投入LDA模型提取主题特征扩展，与步骤2中所得语义特征的词向量进行拼接，获得融合语义和主题特征的词向量矩阵；步骤4：搭建情感分类器，重新将融合语义和主题特征的词向量传入双向Transformer 编码器，用梯度优化Softmax回归模型连接Transformer输出的向量，适配多种任务，训练后输出分类模型；步骤5：将用于深度测试的社交文本语料集投入分类器进行深度预训练，评估模型性能，进行参数微调，得到训练好的分类模型，对文本的情感倾向分类。 2.根据权利要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法，其特征在于，所述步骤1中对文本预处理的具体步骤包括：步骤S11：文本清洗；步骤S12：分词和去除停用词：根据中文停用词表去除无意义词汇，然后再用jieba对文本进行分词处理；步骤S13：文本过滤：删除社交网络文本语料集中文本长度不在设定长度范围的文本。 3.根据权利要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法，其特征在于，所述步骤2中，通过BERT预训练模型对预处理后的文本语料集数据进行语义特征提取，每个词被分别映射成3个向量和表示wij(ω+δ+ρ )， 3个向量即文本的词向量、文本向量和位置向量。 4.根据权利要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法，其特征在于，所述步骤3中，将预处理后的文本语料集投入LDA模型提取主题特征扩展，与步骤2中所得语义特征的词向量进行拼接，获得融合语义和主题特征的词向量矩阵wij(ω+δ +ρ + μ ′)， μ′ 为主题向量，下文将该矩阵统称为词向量；具体步骤包括：步骤S31：统计文本语料集中的单词，生成词典；步骤S32：利用Gensim模块内的LDA模型对语料进行训练，再将得到的矩阵用tf ‑idf算法加权处理，得到扩展的主题特征向量；步骤S33：得到扩展的主题特征向量后，与步骤2中所得语义特征的词向量进行拼接，使用向量拼接的方式完成主题力度下对文本的扩充，这样就融合了BERT提取的语义特征和 LDA提取的主题特征。 5.根据权利要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法，其特征在于，所述步骤4将步骤3中输出融合语义和主题特征的词向量传入Transformer编码器，而 Transformer的输出则被梯度下降优化后的Softmax层连接，用于适配多任务的执行，具体包括如下步骤：步骤S1：词向量 wij(ω+δ +ρ + μ ′)传入双向Transformer编码器；权　利　要　求　书 1/2 页 2 CN 114722835 A 2步骤S2：词向量经过Self‑Attention层，首先计算Query、 Key、 Value矩阵；步骤S3：根据公式：自注意力机制计算公式计算Attention， Softmax为归一化指数函数，使得输出的特征元素和为1；步骤S4：设置注意力头he ad个数参数，设置head＝n，则将n个S elf‑Attention矩阵横向拼接，最后使用附加的权重矩阵与Self ‑Attention相乘使其压缩成一个矩阵。步骤S5：执行情感分类任务，针对语料集中每个句子的词向量以及对应的样本类别，接入单层神经网络Softmax获取输出。步骤S6：执行Masked LM任务，针对训练样本中的每个句子随机掩盖其中设定比例的词用于预测，按照设定比例用剩余的词预测被掩盖词部位的输出。步骤S7：执行NSP任务，针对训练样本中的每个句子选取两个句子A和B， A为正确的下个句子， B则为错误的下个句子，使用CLS令牌输出获取二进制损失。步骤S8：输出初步的分类模型。 6.根据权利要求1所述的基于LDA和BERT融合改进模型的文本情感识别方法，其特征在于，所述步骤5中将正式的语料集投入步骤4中搭建的分类器进行训练，设置初始参数，计算精确率和召回率，同时采用F1分数寻找正负情感分类的阈值，计算Loss函数，作为模型评估的指标。权　利　要　求　书 2/2 页 3 CN 114722835 A 3

专利 基于LDA和BERT融合改进模型的文本情感识别方法

专利基于LDA和BERT融合改进模型的文本情感识别方法