专利 融合多任务和多标签学习的司法领域深度事件抽取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210078832.X (22)申请日 2022.01.24 (71)申请人中国电子科技集团公司第十五研究所地址 100083 北京市海淀区北四环中路21 1 号 (72)发明人黄杨琛　王立才　郭前进　李孟书　李兴宇　 (74)专利代理机构北京理工大学专利中心 11120 专利代理师高会允 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 40/211(2020.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称融合多任务和多标签学习的司法领域深度事件抽取方法 (57)摘要本发明公开了融合多任务和多标签学习的司法领域深度事件抽取方法，能够基于BERT预训练模型与multi ‑task实现触发词提取与事件分类，在增强后的数据上通过多标签分类实现事件要素提取的司法领域事件抽取。目前针对司法领域文本特点，提出一种基于预训练模型BERT的事件抽取模型，通过masked LM方法在领域数据上对BERT进行调优，以学习到更适合领域知识的特征表示；将触发词提取和事件分类任务联合，以 multi‑task的形式将两个任务统一到一个损失函数中，利用任务之间的相关性促进学习性能的提升；使用事件要素的start与end标注进行学习与预测，对于多个事件要素，分别设计对应的网络层进行抽取，减少不同要素之间的相互干扰。权利要求书4页说明书18页附图5页 CN 114580428 A 2022.06.03 CN 114580428 A 1.一种融合多任务学习和多标签学习的司法领域深度事件抽取方法，其特征在于，包括如下步骤步骤1：取司法领域数据进行人工标注，所标注的标签包括事件类型和事件元素，获得司法领域数据集；步骤2：利用中文预训练语言模型BERT在司法领域数据集上，采用Masked LM语言学习模型进行网络调优，学习到适合司法领域知识的网络参数，从而得到司法领域BERT模型，利用所述司法领域BERT模型的输出为文本的语义信息；步骤3：构建multi ‑task网络，所述multi ‑task网络采用所述司法领域BERT模型提取文本的语义信息作为输入， multi ‑task网络定义包含触发词起始位置预测、触发词结束位置预测以及事件类型预测三个任务共同定义的损失函数进行调优， mult i‑task网络的输出包括预测的事件类型、预测的触发词起始位置以及预测的触发词结束位置；步骤4：根据事件类型确定事件要素，构建事件要素抽取模型，所述事件要素抽取模型以司法领域BERT模型提取的文本语义信息为输入，并为每一个事件要素学习专属的网络参数，在每个事件要素对应网络的最后一层，对每一个分词token分别预测是否属于当前事件要素的起始位置或者结束位置。 2.如权利要求1所述的方法，其特征在于，所述利用所述司法领域数据集针对中文预训练语言模型BERT在司法领域数据集上，采用Masked LM语言学习模型进行网络调优，具体为：在人工标注的司法领域数据集上使用Masked LM对BERT模型的参数进行调优，在训练时采用如下策略，随机选择句子中15％的单词进行Mask，在选择为Mask的单词中，有80％真的使用[Mask]进行替换， 10％不进行替换，剩下10％使用一个随机单词替换。 3.如权利要求1所述的方法，其特征在于，所述步骤2具体为：司法领域事件集合E＝{E1， ...， EN}， E1～EN为第1～第N个司法领域事件；司法领域事件对应的文本信息集合为S＝{S1， ...， SN}， S1～SN分别为第 1～第N个司法领域事件对应的文本信息； BERT模型中的epoch的最大值为Epoches，每个epoch的batch数为batch_per_ epoch； BERT基础模型为Ber t_base_c hinese，每个句子的最大长度为max_len；针对BERT模型中的所有的epoc h，执行如下训练流程得到调优后的BERT模型参数：针对epoc h中的每个batch，执行S1～S4： S1将输入句子补零或截取到长度为max_len，获取句子分词的索引I1； S2随机选择句子中15％的单词进行Mask，在选择为Mask的单词中，有80％真的使用 [Mask]进行替换， 10％不进行替换，剩下10％使用一个随机单词替换； S3获取Mask后的句子输入到BERT基础模型Bert_base_chinese 中，获得特征向量，后接 θ0预测句子每个位置对应的分词的索引I2； S4使用Adam优化器最小化I1与I2之间的差异，定义为第一损失函数L( θ， θ0)；当验证集上的第一损失函数在一定epoc h内不再下降时采取 early stopping策略。 4.如权利要求3所述的方法，其特征在于，所述第一损失函数L( θ， θ0)定义如下：权　利　要　求　书 1/4 页 2 CN 114580428 A 2其中， θ是BERT模型中的Encoder部分的参数，输入经过θ得到特征向量， θ0是在Masked LM任务中，接在θ后面的参数， |V|是被mask的词所构成词典的大小； mi表示被mask的词； p(m ＝mi|θ， θ0)表示在给定所学习到的参数θ和θ0的情况下，预测的词m就是被mask的词mi的概率；在所述训练流程中，在BERT模型的前两个epoch中，固定θ，以学习速率为lr＝5e‑4调整 θ0，在随后的epoc h中，以lr＝1e‑5的学习速率同时调整 θ和 θ0，直至达到停止条件。 5.如权利要求3所述的方法，其特征在于，所述步骤3具体为：将司法数据文本进行分词化(tokenize)之后，获得每一个分词token的位置嵌入、段嵌入和词嵌入，将三个嵌入输入到调优后的司法领域BERT模型中，获得每一个分词的特征向量，即为文本的语义信息；所述位置嵌入即该分词在输入文本中的位置；所述段嵌入即该分词为输入文本的所属段落；所述词嵌入即该分词在 BERT的字典中的索引位置；司法领域事件集合E＝{E1， ...， EN}， E1～EN为第1～第N个司法领域事件；司法领域事件对应的文本信息集合为S＝{S1， ...， SN}， S1～SN分别为第 1～第N个司法领域事件对应的文本信息；司法领域事件对应的触发词集合为TR＝{Tr1， ...， TrN}与事件类型集合为TY＝ {Ty1， ...， TyN}， Tr1～TrN分别为第1～第N个司法领域事件对应的触发词， Ty1～TyN分别为第 1～第N个司法领域事件对应的事件类型； epoch的最大值为Epoches，每个epoch的batch数为batch_per_epoc h。调优后的BERT模型Ber t_fine_tune，每个句子的最大长度为max_len；针对BERT模型中的所有的epoch，执行如下训练流程得到所学到的事件要素提取的模型参数：针对epoc h中的每个batch，执行SS1～SS4： SS1.将输入句子补零或截取到长度为max_len，获取事件类型的one ‑hot编码，触发词起始位置和结束位置； SS2.将句子输入到Ber t_fine_tune中，获得特征向量 SS3.特征向量后接θ1预测事件类型的概率，后接θ2预测触发词起始位置的概率，后接 θ3预测触发词结束位置的概率； SS4.构建第二损失函数LT( θ， θ1， θ2， θ3)＝L1( θ， θ1)+L2( θ， θ2)+L3( θ， θ3)，使用Adam优化器最小化第二损失函数； SS5.当验证集上的l oss在一定epoc h内不再下降时采取 early stopping策略。 6.如权利要求5所述的方法，其特征在于，所述第二损失函数定义如下： LT( θ， θ1， θ2， θ3)＝L1( θ， θ1)+L2( θ， θ2)+L3( θ， θ3) 其中， θ是BERT模型中的Encoder部分的参数， L1( θ， θ1)、 L2( θ， θ2)、 L3( θ， θ3)分别对应事件类型预测任务相关的损失函数、触发词起始位置预测任务相关的损失函数以及触发词结束位置预测任务相关的损失函数 θ1为事件类型预测任务对应的全连接层网络参数， Type为所输入事件类型的one ‑hot表权　利　要　求　书 2/4 页 3 CN 114580428 A 3

专利 融合多任务和多标签学习的司法领域深度事件抽取方法

专利融合多任务和多标签学习的司法领域深度事件抽取方法