安全公司报告
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210252170.3 (22)申请日 2022.03.15 (71)申请人 中南大学 地址 410083 湖南省长 沙市岳麓区麓山 南 路932号 (72)发明人 龙军 向一平 刘磊 李浩然 (74)专利代理 机构 长沙市融智专利事务所(普 通合伙) 43114 专利代理师 胡喜舟 (51)Int.Cl. G06F 40/253(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种结合语法的文本 语义相似度计算方法 (57)摘要 本发明公开了一种结合语法的文本语义相 似度计算方法, 包括获取待计算语义相似度的两 个句子; 通过深度语义交互模型提取两个句子的 语义特征向量; 分别构建两个句子的语法依存 树, 并进行结构化嵌入, 分别获得两个句子的语 法树特征向量; 将两个句子各自的语义特征向量 与语法树特征向量进行拼接, 分别得到两个句子 的最终语义特征向量; 基于两个句子的最终语义 特征向量计算得到两个句子的语义相似度。 本发 明的方案提取的句子特征结合了句子中的语法 信息, 提取到的特征更加全面、 深入, 充分考虑了 句子中的上下文关系, 计算得到的相似度准确性 更高, 同时兼顾 平衡了准确率和计算效率。 权利要求书2页 说明书6页 附图3页 CN 114580385 A 2022.06.03 CN 114580385 A 1.一种结合语法的文本语义相似度计算方法, 其特 征在于, 包括: 获取待计算语义相似度的两个句子; 通过深度语义交 互模型提取两个句子的语义特 征向量; 分别构建两个句子的语法依存树, 并进行结构化嵌入, 分别获得两个句子的语法树特 征向量; 将两个句子各自的语义特征向量与语法树特征向量进行拼接, 分别得到两个句子的最 终语义特 征向量; 基于两个句子的最终语义特 征向量计算得到 两个句子的语义相似度。 2.根据权利要求1所述的结合语法的文本语义相似度计算方法, 其特征在于, 所述深度 语义交互模型为使用词MASK训练的BERT衍 生模型。 3.根据权利要求1所述的结合语法的文本语义相似度计算方法, 其特征在于, 构建两个 句子的语法依存树过程包括: 分别对两个句子进行语法分析; 基于语法分析并使用Stanford Dependencies所定义的依存树结构得到两个句子的语 法依存树。 4.根据权利要求1至3任一项所述的结合语法的文本语义相似度计算方法, 其特征在 于, 将两个句子的语法依存树进 行结构化嵌入, 分别获得两个句子的语法树特征向量, 过程 包括: 对于每个句子的语法依存树, 定义语法序列Cp为依存树节点的所有子节点, 顺序为词汇 在句子中的原 始顺序; 定义一个最长序列长度l; 将语法序列Cp中的所有元素输入词嵌入模型中进行计算获取其词嵌入; 如果语法序列 Cp中元素长度不足l, 词嵌入以零矩阵填充以达到最长序列长度; 如果语法序列Cp中元素长 度超过l, 则截断超过长度的元 素, 仅保留前l个元 素, 此时新得到的语法序列定义 为 分别对两个句子中每个句子中的所有词计算其 得到两个句子的语法序列 和 分别将两个句子的语法序列输入一个双向LSTM神经网络中, 得到每个句子 中每个词的 语法树嵌入, 通过拼接从而得到每 个句子的语法树特 征向量。 5.根据权利要求4所述的结合语法的文本语义相似度计算方法, 其特征在于, 分别将两 个句子的语法序列输入一个双向LSTM神经网络中, 得到每个句子中每个词的语法树嵌入, 通过拼接从而得到每 个句子的语法树特 征向量, 具体包括: 两个句子的语法序列输入一个双向LSTM神经网络中, 该双向LSTM神经网络在t时刻的 输出为: 其中, 表示t时刻双向LSTM神经网络的正向输出, 表示t时刻双向LSTM神经网络的 反向输出, wf和wb代表正向LSTM与反向LSTM的隐藏层状态, bt代表偏移量;权 利 要 求 书 1/2 页 2 CN 114580385 A 2对于词汇p, 获取其语法序列在双向LSTM神经网络的正向网络和反向网络的最后一层 状态, 构建词汇p的语法树嵌入V=[Ew,fm,bn], 其中, 表示词汇p的词嵌入, fm表示 双向LSTM网络中正向网络的最后一层计算结果, bn表示双向LSTM网络中反向网络的最后一 层计算结果; 对于每个句子 中每一个词汇都获取其语法树嵌入, 通过拼接从而得到每个句子的语法 树特征向量。 6.根据权利要求1所述的结合语法的文本语义相似度计算方法, 其特征在于, 基于两个 句子的最终语义特 征向量计算得到 两个句子的语义相似度, 具体包括: 将两个句子的最终语义特 征向量输入最终的预测层计算出最终的语义相似度; 预测层的计算过程包括: 将两个句子的最终语义特征向量进行融合, 输入一个多层感 知机, 多层感知机每个隐藏层使用双曲正切函数tanh作为激活函数, 多层感知机的计算公 式为: 其中, s表示多层感知机的输出, W1和W2为参数, b1和b2为偏移量, MA和MB分别表示两个句 子的最终语义特 征向量, σ 代 表tanh激活函数; 多层感知机的输出继续送入一个全连接层, 并且使用sigmoid函数作 为激活函数, 得到 一个范围在[0, 1]的最终相似度, 即为两个句子的语义相似度。权 利 要 求 书 2/2 页 3 CN 114580385 A 3
专利 一种结合语法的文本语义相似度计算方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 17:47:10
上传分享
举报
下载
原文档
(689.5 KB)
分享
友情链接
GB-T 37580-2019 聚乙烯 PE 埋地燃气管道腐蚀控制工程全生命周期要求.pdf
GB-T 28583-2012 供电服务规范.pdf
GA 1800.4-2021 电力系统治安反恐防范要求 第4部分:风力发电企业.pdf
GB-T 15921-2010 海洋学术语 海洋化学.pdf
DB31-T 1219-2020 节能技术评审方法和程序 上海市.pdf
T-GCHA 1.2—2018 定制家居产品 人造板定制衣柜 第2部分:原材料验收规范.pdf
GB-T 42748-2023 专利评估指引.pdf
GB-T 8446.1-2022 电力半导体器件用散热器 第1部分:散热体.pdf
GB-T 32563-2016 无损检测 超声检测 相控阵超声检测方法.pdf
GB-T 8174-2008 设备及管道绝热效果的测试与评价.pdf
GB 40050-2021 网络关键设备安全通用要求.pdf
GB-T 42430-2023 血液、尿液中乙醇、甲醇、正丙醇、丙酮、异丙醇和正丁醇检验.pdf
中国移动通信企业标准 QB-018-2008 通信用不间断电源-UPS-V1.0.0 .pdf
GB-T 3412.1-2009 大坝监测仪器 检测仪 第1部分:振弦式仪器检测仪.pdf
GB-T 20008-2005 信息安全技术 操作系统安全评估准则.pdf
T-CITS 0020—2023 数字化实验室建设指南.pdf
DB34-T 3819-2021 移动视频图像信息系统建设、使用和管理规范 安徽省.pdf
GB-T 21054-2023 信息安全技术 公钥基础设施 PKI系统安全测评方法.pdf
GB 50058-2014 爆炸危险环境电力装置设计规范.pdf
GB-T 20000.11-2016 标准化工作指南 第11部分:国家标准的英文译本通用表述.pdf
1
/
3
12
评价文档
赞助2.5元 点击下载(689.5 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。