安全公司报告
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210016021.7 (22)申请日 2022.01.07 (71)申请人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 (72)发明人 李小勇 兰天 高雅丽 苑洁 李灵慧 兰宁 (74)专利代理 机构 北京挺立专利事务所(普通 合伙) 11265 代理人 高福勇 (51)Int.Cl. G06F 16/35(2019.01) G06F 40/30(2020.01) G06F 40/284(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于ERNIE-Bi GRU-Attention的谣言检 测方法 (57)摘要 本发明公开了一种基于ERNIE ‑BiGRU‑ Attention的谣言检测方法, 借助了ERNIE模型以 及双向GRU加上注意力机制模型, 对一条最新发 布的新闻进行内容真假性的判断, 通过神经网络 来预测其结果。 ERNIE语料库包含了 百度新闻、 百 度百科、 百度词条等大范围的语料, 非常契合谣 言检测领域, 解决了现有模型没有对新闻主题领 域进行泛化的缺点。 后续, 我们加入Bi GRU层和注 意力机制层, 能够更好地掌握ERNIE预处理后文 本的关键实体信息, 从而获得更好的泛化能力和 更高的准确率。 权利要求书2页 说明书7页 附图2页 CN 114357172 A 2022.04.15 CN 114357172 A 1.一种基于 ERNIE‑BiGRU‑Attention的谣言检测方法, 其特 征在于, 包括以下步骤: S1、 将ERN IE作为预处 理模型, 输出词向量; S2、 将词向量输入BiGRU ‑Attention模型, BiGRU ‑Attention模型分为三个部分: 输入 层、 隐藏层和输出层, 隐藏层由BiGRU层、 Attention层和全连接层组成, 其中, BiGRU层对前 向GRU输出的隐状态序列与反向GRU输出的隐状态序列进行拼接, 得到完整的隐状态序列, 然后将隐状态序列映射到k维, k是标注集的标签数, 从而 得到自动提取的特征, 记作矩阵p, 再经过Attention层输出特征γ通过全连接层映射到实例分类空间Y; S3、 利用softmax 函数对分布概率进行归一化, 得到谣言二元分类问题概率Pr, 并将该行 最大值对应的标签作为分类结果; S4、 根据谣言二元分类问题概 率Pr的范围判断本文可信度的区间。 2.根据权利要求1所述 的基于ERNIE ‑BiGRU‑Attention 的谣言检测 方法, 其特征在于, 步骤S1中ERNIE模型的输入样本包括以下部分: 输入句子对的表示、 句子对的句子所属种 类、 位置编码、 分词边界的表示。 3.根据权利要求1所述 的基于ERNIE ‑BiGRU‑Attention 的谣言检测 方法, 其特征在于, 步骤S1中ERNIE模 型通过判断上下文是否有语义上的衔接, 或者通过对词语、 字或者名词实 体的不同粒度进行mask策略后再对被mask的词进行 预测。 4.根据权利要求3所述 的基于ERNIE ‑BiGRU‑Attention 的谣言检测 方法, 其特征在于, mask策略为: 在一句话中随机选择15%的词汇用于预测, 对于在原句中被抹去的词汇, 80% 情况下采用一个特殊符号MASK替换, 10%情况下采用一个任意词 替换, 剩余10%情况下保 持原词汇不变。 5.根据权利要求4所述 的基于ERNIE ‑BiGRU‑Attention 的谣言检测 方法, 其特征在于, 步骤S1中ERNIE模型的训练过程为: 从文本语料库中随机选择50%正确语句对和50%错误 语句对进行训练, 与MASKED LM任务相结合。 6.根据权利要求1所述 的基于ERNIE ‑BiGRU‑Attention 的谣言检测 方法, 其特征在于, 步骤S2中BiGRU层的计算公式如下: ot=tanh(Wxoxt+Whoht‑1+Wcoct+b0) ht=ot tanh(ct) 其中, ot表示输出状态, Wxo、 Who和Wco表示分别表示输入向量、 隐藏层向量和细胞的权重 矩阵, b0表示偏置向量, ct表示细胞状态。 7.根据权利要求1所述 的基于ERNIE ‑BiGRU‑Attention 的谣言检测 方法, 其特征在于, 步骤S2的A ttention层的计算公式如下: M=tanh(H ·ωA+bA) α =softmax(wTM) γ=HαT 式中, tanh是非线性激活函数; ωT和ωA表示可学习的参数矩阵; bA是偏移值, 矩阵α表 示句子中每个单词的注 意力得分, M表 示非线性激活函数tanh的输出, H表 示双向GRU层输出 的隐状态序列矩阵, γ表示乘以单词注意力得分转置矩阵后的输出值。 8.根据权利要求1所述 的基于ERNIE ‑BiGRU‑Attention 的谣言检测 方法, 其特征在于, 步骤S2中实例分类空间Y的计算公式如下:权 利 要 求 书 1/2 页 2 CN 114357172 A 2Y=relu(γ ·ωo+bo) 其中, relu是激活函数, γ表示乘以单词注意力得分转置矩阵后的输 出值, ωo表示可学 习的参数矩阵, bo表示偏移值。 9.根据权利要求1所述 的基于ERNIE ‑BiGRU‑Attention 的谣言检测 方法, 其特征在于, 步骤S3中谣言二元分类问题概 率Pr的计算公式如下: Pr=softmax(Y) 其中, softmax为归一 化函数, Y表示实例分类空间。 10.根据权利要求1所述的基于ERNIE ‑BiGRU‑Attention的谣言检测方法, 其特征在于, 步骤S4中本文可信度的区间分为以下四个: 0.75~1: 非常可信; 0.5~0.75: 较为可信; 0.25 ~0.5: 较为 不可信; 0~0.25: 非常不可信。权 利 要 求 书 2/2 页 3 CN 114357172 A 3
专利 一种基于ERNIE-BiGRU-Attention的谣言检测方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 SC 于
2024-02-18 22:34:01
上传分享
举报
下载
原文档
(591.8 KB)
分享
友情链接
电信研究院 游耀东 DevSecOps在云网融合环境下的实践 2021.pdf
GB-T 3979-2008 物体色的测量方法.pdf
GB-T 41263-2022 工控系统动态重构主动防御体系架构规范.pdf
中安网星 智域安全管家-v3.1.pdf
T-CTA 002—2019 船舶水尺计重工作规范.pdf
CREST 应急响应指南 CSIR-Procurement-Guide 英文版.pdf
GB-T 6946-2008 钢丝绳铝合金压制接头.pdf
GB-T 33018.3-2016 炭素企业节能技术规范 第3部分:机械加工.pdf
GB-T 25295-2010 电气设备安全设计导则.pdf
NB-T 10897—2021 烃基生物柴油.pdf
GB-T 22653-2008 液化气体设备用紧急切断阀.pdf
安恒 黄承开 网络安全技术标准化和下一代网络安全架构技术介绍 2022.pdf
T-ZZB 1640—2020 保温杯 壶 用热固性粉末涂料.pdf
DB37-T 3386-2018 工业园区规划水资源论证技术导则 山东省.pdf
GB-T 34978-2017 信息安全技术 移动智能终端个人信息保护技术要求.pdf
DB23-T 3212—2022 一体化在线政务服务平台运行维护规范 黑龙江省.pdf
GB-T 42260-2022 磷酸铁锂电化学性能测试 循环寿命测试方法.pdf
GB-T 43578-2023 信息安全技术 通用密码服务接口规范.pdf
T-HFS 001—2023 商业银行外部数据价值评估指南.pdf
GB-T 41985-2022 230MeV~250MeV超导质子回旋加速器.pdf
交流群
-->
1
/
12
评价文档
赞助2元 点击下载(591.8 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。