安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210433291.8 (22)申请日 2022.04.24 (71)申请人 浪潮软件科技有限公司 地址 250100 山东省济南市高新区浪潮路 1036号浪潮科技园 (72)发明人 王宗增 杨培强 程林 (74)专利代理 机构 济南信达专利事务所有限公 司 37100 专利代理师 姜丽洁 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/30(2020.01) (54)发明名称 一种融合多层前馈表征的预训练方法及装 置 (57)摘要 本发明涉及深度学习技术领域, 具体提供了 一种融合多层前馈表征的预训练方法, 具有如下 步骤: S1、 对文本数据进行采集; S2、 设定多任务 学习的任务 分类类别; S3、 依据选定的任务类型, 分别应对预处理相应的文本; S4、 网络结构的设 定和代码编写; S5、 实现层间拉平的文本向量的 融合; S6、 Specific ‑task的MLP设计和编程实现; S7、 数据策略和算 法制定; S8、 整 合步骤S4至S7代 码, 进行End ‑to‑End的全网络前馈流程; S9、 使用 预处理后的文本数据对模型进行训练, 达到全局 最优; S10、 序列化训练好的融合多层前馈表征的 预训练语言模型; S11、 Encoder分别后接 Specific ‑task后处理模型。 与现有技术相比, 本 发明通过融合手段有效提升了词向量的全局文 本表征能力。 权利要求书2页 说明书5页 附图3页 CN 114912606 A 2022.08.16 CN 114912606 A 1.一种融合多层前馈表征的预训练方法, 其特 征在于, 具有如下步骤: S1、 对文本数据进行采集; S2、 设定多任务学习的特定任务类别, 同时包括NSP下句 预测的句子对任务和SQuAD阅 读理解任务; S3、 依据选定的任务类型, 分别应对预处理相应的文本, 包括监督型的打标任务和无标 签数据的Self ‑train策略定制; S4、 网络结构的设定和代码编写; S5、 制定并编写代码, 实现层间拉平的文本向量的融合; S6、 Specific ‑task的MLP设计和编程实现; S7、 数据策略和算法制定, 并编写代码; S8、 整合步骤S4至S7代码, 进行End ‑to‑End的全网络前馈流 程; S9、 使用预处理后的文本数据对融合多层前馈表征的编码器网络进行训练, 达到全局 最优; S10、 序列化训练好的融合多层前馈表征的预训练语言模型; S11、 Encoder分别后接Specific ‑task后处理模型, 使用测试数据分别对融合多层前馈 表征的编码器网络进行性能评估。 2.根据权利要求1所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S3 中, 在Data Augmentation上, 对后置词语分类特定任务的语料, 基于Skip ‑Gram的Word Embedding进行Word Mixup, 同时针对标签进行Label Smoothing; 融合Self ‑training弱监督学习Pure Semi‑supervised Learning, 对无监督数据进行 有效利用。 3.根据权利要求2所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S4 中, Encoder部分使用14头Mu lti‑headed Attention多头注意力机制 、 Position Embedding 位置嵌入, 主动放大Sequence Mask, 对多层Encoder的全局向量表征, 使用BERT base‑ chinese的12层F eed Forward结构。 4.根据权利要求3所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S5 中, 多层向量表征的融合上, 采用两种融合策 略, 一种融合策 略为借鉴SENet对各层表征进 行LN操作, 并进行一维全局maximum pooling, 随后接入2层的FC, 得到各层向量表征的重要 程度, 最终对多层向量表征进行加权融合。 5.根据权利要求4所述的一种融合多层前馈表征的预训练方法, 其特征在于, 所述的两 种融合策 略中第二种融合策 略为将多层向量表征的层关系视为Channel深度关系, 先通过 少于Channel数的Point ‑wise Convolution进行通道减少并缓解混叠, 随后进行单滤波器 的Point‑wise Convolution将特征Flatten为1d向量, 紧接着连接输出层构建FC网络, 所述 FC网络的输出维度等同于输入1d向量的维度, 从而通过网络结构的专门设定实现了多层向 量表征的融合。 6.根据权利要求5所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S5 中, Feed Forward前馈部分, 借鉴CSPDarknet ‑53调整BERT base的ResNet ‑shortcut为CSP 结构, 设定Bottleneck模块数为6, 将CSP替换为1d卷积, 并保留BN操作, 同时采用GELU激活 函数。权 利 要 求 书 1/2 页 2 CN 114912606 A 27.根据权利要求6所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S7 中, 构建Multi ‑task learning训练目标, 通过 实验Coding实现并验证比对GLUE 各类任务对 应的损失函数, 最终选择Soft F1 Loss替换原网络中的交叉熵损失作为 最终的策略要素。 8.根据权利要求7所述的一种融合多层前馈表征的预训练方法, 其特征在于, 在步骤S8 中, 通过引入指数加权移动平均数和Momentum的Adam, 并在Specific ‑task层上设计网络, 在BERT后接入8层的FC构成MLP, 其中FC的网络层数作为超参数进行GridSearch/ RandomSearc h调参。 9.一种融合多层前馈表征的预训练装置, 其特征在于, 包括: 至少一个存储器和至少一 个处理器; 所述至少一个存 储器, 用于存 储机器可读程序; 所述至少一个处理器, 用于调用所述机器可读程序, 执行权利要求1至8中任一所述的 方法。权 利 要 求 书 2/2 页 3 CN 114912606 A 3
专利 一种融合多层前馈表征的预训练方法及装置
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:47:22
上传分享
举报
下载
原文档
(546.8 KB)
分享
友情链接
GA 1026-2022 机动车驾驶人考试内容和方法.pdf
GB-T 35553-2017 城市轨道交通机电设备节能要求.pdf
DB37-T 3304-2018 信息安全技术 云计算运维安全管理规范 山东省.pdf
JR-T 0071.6—2020 金融行业网络安全等级保护实施指引 第6部分:审计指引.pdf
GB-T 41524-2022 玩具材料中短链氯化石蜡含量的测定 气相色谱-质谱联用法.pdf
GB-T 19465-2004 工业用异丁烷 (HC-600a).pdf
GB 24502-2023 煤矿用自救器.pdf
GB-T 23456-2018 磷石膏.pdf
GM-T 0003.5-2012 SM2椭圆曲线公钥密码算法第5部分:参数定义.pdf
中康科技 乙肝肝炎行业研究报告解读 2021 .pdf
GB-T 31503-2015 信息安全技术 电子文档加密与签名消息语法.pdf
中兴 通讯数据中心液冷技术白皮书 2022 .pdf
GB-T 20319-2017 风力发电机组 验收规范.pdf
GB-T 16902.5-2017 设备用图形符号表示规则 第5部分:图标的设计指南.pdf
T-CFAS 0001—2019 信息安全技术 开源软件安全使用规范.pdf
硅创社2024001-AIGC2023~2024跨年报告V1.0 2024.pdf
DB5301-T 82-2023 农业废弃物 冷库蔬菜废弃物处置规范 昆明市.pdf
GB-T 20239-2023 体育馆用木质地板.pdf
GB-T 18916.11-2021 取水定额 第11部分:选煤.pdf
GM-T 0010-2023 SM2密码算法加密签名消息语法规范.pdf
1
/
3
11
评价文档
赞助2.5元 点击下载(546.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。