安全公司报告
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210078832.X (22)申请日 2022.01.24 (71)申请人 中国电子科技 集团公司第十五研究 所 地址 100083 北京市海淀区北四环中路21 1 号 (72)发明人 黄杨琛 王立才 郭前进 李孟书 李兴宇 (74)专利代理 机构 北京理工大 学专利中心 11120 专利代理师 高会允 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 40/211(2020.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 融合多任务和多标签学习的司法领域深度 事件抽取方法 (57)摘要 本发明公开了融合多任务和多标签学习的 司法领域深度事件抽取方法, 能够基于BERT预训 练模型与multi ‑task实现触发词提取与事件分 类, 在增强后的数据上通过多标签 分类实现事件 要素提取的司法领域事件抽取。 目前针对司法领 域文本特点, 提出一种基于预训练模型BERT的事 件抽取模型, 通过masked LM方法在领域数据上 对BERT进行调优, 以学习到 更适合领域知 识的特 征表示; 将触发词提取和事件分类任务联合, 以 multi‑task的形式将两个任务统一到一个损失 函数中, 利用任务之间的相关性促进学习性能的 提升; 使用事件要素的start与end标注进行学习 与预测, 对于多个事件要素, 分别设计对应的网 络层进行抽取, 减少不同要素之间的相互干 扰。 权利要求书4页 说明书18页 附图5页 CN 114580428 A 2022.06.03 CN 114580428 A 1.一种融合多任务学习和多标签学习的司法领域深度事件抽取方法, 其特征在于, 包 括如下步骤 步骤1: 取司法领域数据进行人工标注, 所标注 的标签包括事件类型和事件元素, 获得 司法领域数据集; 步骤2: 利用中文预训练语言模型BERT在司法领域数据集上, 采用Masked LM语言学习 模型进行网络调优, 学习到适合司法领域知识的网络参数, 从而 得到司法领域BERT模 型, 利 用所述司法领域BERT模型的输出为文本的语义信息; 步骤3: 构建multi ‑task网络, 所述multi ‑task网络采用所述司法领域BERT模型提取文 本的语义信息作为输入, multi ‑task网络定义包含触发词起始位置预测、 触发词结束位置 预测以及事件类型预测三个任务共同定义的损失函数进 行调优, mult i‑task网络的输出包 括预测的事 件类型、 预测的触发词起始位置以及预测的触发词结束位置; 步骤4: 根据事件类型确定事件要素, 构建事件要素抽取模型, 所述事件要素抽取模型 以司法领域BERT模型提取的文本语义信息为输入, 并为每一个事件要 素学习专属的网络参 数, 在每个事件要 素对应网络的最后一层, 对每一个 分词token分别预测是否属于 当前事件 要素的起始位置或者结束位置 。 2.如权利要求1所述的方法, 其特征在于, 所述利用所述司法领域数据集针对中文预训 练语言模型BERT在司法领域数据集上, 采用Masked LM语言学习模型进行网络调优, 具体 为: 在人工标注的司法领域数据集上使用Masked LM对BERT模型的参数进行调优, 在训练 时采用如下策略, 随机选择句子中15%的单词进行Mask, 在选择为Mask的单词中, 有80%真 的使用[Mask]进行替换, 10%不进行替换, 剩下10%使用一个随机单词替换。 3.如权利要求1所述的方法, 其特 征在于, 所述 步骤2具体为: 司法领域事件集合E={E1, ..., EN}, E1~EN为第1~第N个司法领域事件; 司法领域事件 对应的文本信息集合为S={S1, ..., SN}, S1~SN分别为第 1~第N个司法领域事件对应的文 本信息; BERT模型中的epoch的最大值为Epoches, 每个epoch的batch数为batch_per_ epoch; BERT基础模型为Ber t_base_c hinese, 每个句子的最大长度为max_len; 针对BERT模型中的所有的epoc h, 执行如下训练流 程得到调优后的BERT模型参数: 针对epoc h中的每个batch, 执行S1~S4: S1将输入句子补零或截取到 长度为max_len, 获取句子分词的索引I1; S2随机选择句子中15%的单词进行Mask, 在选择为Mask的单词中, 有80%真的使用 [Mask]进行替换, 10%不进行替换, 剩下10%使用一个随机单词替换; S3获取Mask后的句子输入到BERT基础模型Bert_base_chinese 中, 获得特征向量, 后接 θ0预测句子每 个位置对应的分词的索引I2; S4使用Adam优化器最小化I1与I2之间的差异, 定义为第一损失函数L( θ, θ0); 当验证集 上的第一损失函数在一定epoc h内不再下降时采取 early stopping策略。 4.如权利要求3所述的方法, 其特 征在于, 所述第一损失函数L( θ, θ0)定义如下: 权 利 要 求 书 1/4 页 2 CN 114580428 A 2其中, θ是BERT模型中的Encoder部分的参数, 输入经过θ得到特征向量, θ0是在Masked LM任务中, 接在θ后面的参数, |V|是被mask的词所构成词典的大小; mi表示被mask的词; p(m =mi|θ, θ0)表示在给定所学习到的参数θ和θ0的情况下, 预测的词m就是被mask的词mi的概 率; 在所述训练流程中, 在BERT模型的前两个epoch中, 固定θ, 以学习速率为lr=5e‑4调整 θ0, 在随后的epoc h中, 以lr=1e‑5的学习速率同时调整 θ和 θ0, 直至达到停止条件。 5.如权利要求3所述的方法, 其特 征在于, 所述 步骤3具体为: 将司法数据文本进行分词化(tokenize)之后, 获得每一个分词token的位置嵌入、 段嵌 入和词嵌入, 将三个嵌入输入到调优后的司法领域BERT模型中, 获得每一个分词的特征向 量, 即为文本的语义信息; 所述位置嵌入即该分词在输入文本中的位置; 所述段嵌入即该分词为输入文本的所属 段落; 所述词嵌入即该分词在 BERT的字典中的索引位置; 司法领域事件集合E={E1, ..., EN}, E1~EN为第1~第N个司法领域事件; 司法领域事件 对应的文本信息集合为S={S1, ..., SN}, S1~SN分别为第 1~第N个司法领域事件对应的文 本信息; 司法领域事件对应的触发词集合为TR={Tr1, ..., TrN}与事件类型集合为TY= {Ty1, ..., TyN}, Tr1~TrN分别为第1~第N个司法领域事件对应的触发词, Ty1~TyN分别为第 1~第N个司法领域事件对应的事件类型; epoch的最大值为Epoches, 每个epoch的batch数 为batch_per_epoc h。 调优后的BERT模型Ber t_fine_tune, 每 个句子的最大长度为max_len; 针对BERT模型中的所有的epoch, 执行如下训练流程得到所学到的事件要素提取的模 型参数: 针对epoc h中的每个batch, 执行SS1~SS4: SS1.将输入句子补零或截取到长度为max_len, 获取事件类型的one ‑hot编码, 触发词 起始位置和结束位置; SS2.将句子 输入到Ber t_fine_tune中, 获得 特征向量 SS3.特征向量 后接θ1预测事件类型的概率, 后接θ2预测触发词起始位置的概率, 后接 θ3预测触发词结束位置的概 率; SS4.构建第二损失函 数LT( θ, θ1, θ2, θ3)=L1( θ, θ1)+L2( θ, θ2)+L3( θ, θ3), 使用Adam优化器 最小化第二损失函数; SS5.当验证集上的l oss在一定epoc h内不再下降时采取 early stopping策略。 6.如权利要求5所述的方法, 其特 征在于, 所述第二损失函数定义如下: LT( θ, θ1, θ2, θ3)=L1( θ, θ1)+L2( θ, θ2)+L3( θ, θ3) 其中, θ是BERT模型中的Encoder部分 的参数, L1( θ, θ1)、 L2( θ, θ2)、 L3( θ, θ3)分别对应事 件类型预测任务相关的损失函数、 触发词起始 位置预测任务相关的损失函数以及触发词结 束位置预测任务相关的损失函数 θ1为事件类 型预测任 务对应的全连接层网络参数, Type为所输入事件类型的one ‑hot表权 利 要 求 书 2/4 页 3 CN 114580428 A 3
专利 融合多任务和多标签学习的司法领域深度事件抽取方法
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:33:47
上传分享
举报
下载
原文档
(1.9 MB)
分享
友情链接
GB-T 29718-2013 滚动轴承 风力发电机组主轴轴承.pdf
DB63-T 2086-2022 水利水电工程堆石混凝土坝施工质量检验与评定规范 青海省.pdf
T-SZCC 001—2023 深圳市生物医药产业“工业上楼” 设计指引.pdf
GB-T 26071-2018 太阳能电池用硅单晶片.pdf
企业软件安全开发实践 培训材料.pdf
T-GRM 010—2020 金属非金属矿山粉尘治理技术标准.pdf
GM-T 0046-2016 金融数据密码机检测规范.pdf
GB-T 10233-2016 低压成套开关设备和电控设备基本试验方法.pdf
GM-T 0033-2023 时间戳接口规范.pdf
GB-T 26834-2011 无损检测仪器 小焦点及微焦点X射线管有效焦点尺寸测量方法.pdf
DB4205-T 63-2019 磷石膏及其综合利用产品质量标准 宜昌市.pdf
T-SAASS 127—2023 单粒精播花生种子生产与加工技术规程.pdf
GB-T 39256-2020 绿色制造 制造企业绿色供应链管理 信息化管理平台规范.pdf
T-CAAPA 0005—2023 无动力游乐设施 绳网.pdf
GB-T 41800-2022 信息技术 传感器网络 爆炸危险化学品贮存安全监测系统技术要求.pdf
T-GCHA 1.3—2018 定制家居产品 人造板定制衣柜 第3部分:有害物质限量及气味等级.pdf
GB-T 8446.1-2022 电力半导体器件用散热器 第1部分:散热体.pdf
T-CIATCM 016—2019 针灸科电子病历基本数据集.pdf
T-WAPIA 045.2—2021 信息技术 系统间远程通信和信息交换 原子密钥建立与实体鉴别 第2部分:轻量级原子密钥建立与实体鉴别.pdf
GB T 42446-2023 信息安全技术 网络安全从业人员能力基本要求.pdf
交流群
-->
1
/
28
评价文档
赞助2元 点击下载(1.9 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。