安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210078832.X (22)申请日 2022.01.24 (71)申请人 中国电子科技 集团公司第十五研究 所 地址 100083 北京市海淀区北四环中路21 1 号 (72)发明人 黄杨琛 王立才 郭前进 李孟书  李兴宇  (74)专利代理 机构 北京理工大 学专利中心 11120 专利代理师 高会允 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 40/211(2020.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 融合多任务和多标签学习的司法领域深度 事件抽取方法 (57)摘要 本发明公开了融合多任务和多标签学习的 司法领域深度事件抽取方法, 能够基于BERT预训 练模型与multi ‑task实现触发词提取与事件分 类, 在增强后的数据上通过多标签 分类实现事件 要素提取的司法领域事件抽取。 目前针对司法领 域文本特点, 提出一种基于预训练模型BERT的事 件抽取模型, 通过masked  LM方法在领域数据上 对BERT进行调优, 以学习到 更适合领域知 识的特 征表示; 将触发词提取和事件分类任务联合, 以 multi‑task的形式将两个任务统一到一个损失 函数中, 利用任务之间的相关性促进学习性能的 提升; 使用事件要素的start与end标注进行学习 与预测, 对于多个事件要素, 分别设计对应的网 络层进行抽取, 减少不同要素之间的相互干 扰。 权利要求书4页 说明书18页 附图5页 CN 114580428 A 2022.06.03 CN 114580428 A 1.一种融合多任务学习和多标签学习的司法领域深度事件抽取方法, 其特征在于, 包 括如下步骤 步骤1: 取司法领域数据进行人工标注, 所标注 的标签包括事件类型和事件元素, 获得 司法领域数据集; 步骤2: 利用中文预训练语言模型BERT在司法领域数据集上, 采用Masked  LM语言学习 模型进行网络调优, 学习到适合司法领域知识的网络参数, 从而 得到司法领域BERT模 型, 利 用所述司法领域BERT模型的输出为文本的语义信息; 步骤3: 构建multi ‑task网络, 所述multi ‑task网络采用所述司法领域BERT模型提取文 本的语义信息作为输入, multi ‑task网络定义包含触发词起始位置预测、 触发词结束位置 预测以及事件类型预测三个任务共同定义的损失函数进 行调优, mult i‑task网络的输出包 括预测的事 件类型、 预测的触发词起始位置以及预测的触发词结束位置; 步骤4: 根据事件类型确定事件要素, 构建事件要素抽取模型, 所述事件要素抽取模型 以司法领域BERT模型提取的文本语义信息为输入, 并为每一个事件要 素学习专属的网络参 数, 在每个事件要 素对应网络的最后一层, 对每一个 分词token分别预测是否属于 当前事件 要素的起始位置或者结束位置 。 2.如权利要求1所述的方法, 其特征在于, 所述利用所述司法领域数据集针对中文预训 练语言模型BERT在司法领域数据集上, 采用Masked  LM语言学习模型进行网络调优, 具体 为: 在人工标注的司法领域数据集上使用Masked  LM对BERT模型的参数进行调优, 在训练 时采用如下策略, 随机选择句子中15%的单词进行Mask, 在选择为Mask的单词中, 有80%真 的使用[Mask]进行替换, 10%不进行替换, 剩下10%使用一个随机单词替换。 3.如权利要求1所述的方法, 其特 征在于, 所述 步骤2具体为: 司法领域事件集合E={E1, ..., EN}, E1~EN为第1~第N个司法领域事件; 司法领域事件 对应的文本信息集合为S={S1, ..., SN}, S1~SN分别为第 1~第N个司法领域事件对应的文 本信息; BERT模型中的epoch的最大值为Epoches, 每个epoch的batch数为batch_per_ epoch; BERT基础模型为Ber t_base_c hinese, 每个句子的最大长度为max_len; 针对BERT模型中的所有的epoc h, 执行如下训练流 程得到调优后的BERT模型参数: 针对epoc h中的每个batch, 执行S1~S4: S1将输入句子补零或截取到 长度为max_len, 获取句子分词的索引I1; S2随机选择句子中15%的单词进行Mask, 在选择为Mask的单词中, 有80%真的使用 [Mask]进行替换, 10%不进行替换, 剩下10%使用一个随机单词替换; S3获取Mask后的句子输入到BERT基础模型Bert_base_chinese 中, 获得特征向量, 后接 θ0预测句子每 个位置对应的分词的索引I2; S4使用Adam优化器最小化I1与I2之间的差异, 定义为第一损失函数L( θ, θ0); 当验证集 上的第一损失函数在一定epoc h内不再下降时采取 early stopping策略。 4.如权利要求3所述的方法, 其特 征在于, 所述第一损失函数L( θ, θ0)定义如下: 权 利 要 求 书 1/4 页 2 CN 114580428 A 2其中, θ是BERT模型中的Encoder部分的参数, 输入经过θ得到特征向量, θ0是在Masked   LM任务中, 接在θ后面的参数, |V|是被mask的词所构成词典的大小; mi表示被mask的词; p(m =mi|θ, θ0)表示在给定所学习到的参数θ和θ0的情况下, 预测的词m就是被mask的词mi的概 率; 在所述训练流程中, 在BERT模型的前两个epoch中, 固定θ, 以学习速率为lr=5e‑4调整 θ0, 在随后的epoc h中, 以lr=1e‑5的学习速率同时调整 θ和 θ0, 直至达到停止条件。 5.如权利要求3所述的方法, 其特 征在于, 所述 步骤3具体为: 将司法数据文本进行分词化(tokenize)之后, 获得每一个分词token的位置嵌入、 段嵌 入和词嵌入, 将三个嵌入输入到调优后的司法领域BERT模型中, 获得每一个分词的特征向 量, 即为文本的语义信息; 所述位置嵌入即该分词在输入文本中的位置; 所述段嵌入即该分词为输入文本的所属 段落; 所述词嵌入即该分词在 BERT的字典中的索引位置; 司法领域事件集合E={E1, ..., EN}, E1~EN为第1~第N个司法领域事件; 司法领域事件 对应的文本信息集合为S={S1, ..., SN}, S1~SN分别为第 1~第N个司法领域事件对应的文 本信息; 司法领域事件对应的触发词集合为TR={Tr1, ..., TrN}与事件类型集合为TY= {Ty1, ..., TyN}, Tr1~TrN分别为第1~第N个司法领域事件对应的触发词, Ty1~TyN分别为第 1~第N个司法领域事件对应的事件类型; epoch的最大值为Epoches, 每个epoch的batch数 为batch_per_epoc h。 调优后的BERT模型Ber t_fine_tune, 每 个句子的最大长度为max_len; 针对BERT模型中的所有的epoch, 执行如下训练流程得到所学到的事件要素提取的模 型参数: 针对epoc h中的每个batch, 执行SS1~SS4: SS1.将输入句子补零或截取到长度为max_len, 获取事件类型的one ‑hot编码, 触发词 起始位置和结束位置; SS2.将句子 输入到Ber t_fine_tune中, 获得 特征向量 SS3.特征向量 后接θ1预测事件类型的概率, 后接θ2预测触发词起始位置的概率, 后接 θ3预测触发词结束位置的概 率; SS4.构建第二损失函 数LT( θ, θ1, θ2, θ3)=L1( θ, θ1)+L2( θ, θ2)+L3( θ, θ3), 使用Adam优化器 最小化第二损失函数; SS5.当验证集上的l oss在一定epoc h内不再下降时采取 early stopping策略。 6.如权利要求5所述的方法, 其特 征在于, 所述第二损失函数定义如下: LT( θ, θ1, θ2, θ3)=L1( θ, θ1)+L2( θ, θ2)+L3( θ, θ3) 其中, θ是BERT模型中的Encoder部分 的参数, L1( θ, θ1)、 L2( θ, θ2)、 L3( θ, θ3)分别对应事 件类型预测任务相关的损失函数、 触发词起始 位置预测任务相关的损失函数以及触发词结 束位置预测任务相关的损失函数 θ1为事件类 型预测任 务对应的全连接层网络参数, Type为所输入事件类型的one ‑hot表权 利 要 求 书 2/4 页 3 CN 114580428 A 3

PDF文档 专利 融合多任务和多标签学习的司法领域深度事件抽取方法

文档预览
中文文档 28 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 融合多任务和多标签学习的司法领域深度事件抽取方法 第 1 页 专利 融合多任务和多标签学习的司法领域深度事件抽取方法 第 2 页 专利 融合多任务和多标签学习的司法领域深度事件抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:33:47上传分享
友情链接
交流群
  • //public.wenku.github5.com/wodemyapi/22.png
-->
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。