(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211228528.5
(22)申请日 2022.10.08
(71)申请人 齐鲁工业大学
地址 250353 山东省济南市长清区大 学路
3501号
(72)发明人 鹿文鹏 张国标 张维玉 乔新晓
郑超群 马凤英
(74)专利代理 机构 济南信达专利事务所有限公
司 37100
专利代理师 孙园园
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/289(2020.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
基于局部自注意力的知识增强的词义消歧
方法和装置
(57)摘要
本发明公开了一种基于局部自注意力的知
识增强的词义消歧方法和装置, 属于人工智 能、
自然语言处理领域。 本发明要解决的技术问题为
如何增强歧义词的词义表示, 抽取候选词义正确
的文本跨度, 进而判定歧义词的正确词义。 采用
的技术方案为: ①基于局部自注 意力的知识增强
的词义消歧方法, 该方法包括如下步骤: S1、 构建
知识增强模块; S2、 构建基于局部自注意力的
Transformer模块; S3、 构建预测模 块; S4、 训练词
义消歧模型。 ②基于局部自注 意力的知识增强的
词义消歧装置, 该装置包括: 知识增强模块构建
单元、 基于局部自注意力的Transformer模块构
建单元、 预测模块构建单元、 词义消歧模型训练
单元。
权利要求书4页 说明书15页 附图2页
CN 115526184 A
2022.12.27
CN 115526184 A
1.一种基于局部自注意力的知识增强的词义消歧方法, 其特征在于, 该方法首先通过
知识增强模块将歧义词的上下文与从知识本体中检索得到的候选词义的注释、 例句等语义
知识进行拼接, 得到歧义词的上下文和候选词义增强描述的合并文本, 简称为合并文本; 而
后, 基于局部自注 意力的Transformer模块通过多层双向编码 器、 双向解码器的堆叠以实现
对合并文本的编码、 解码, 得到合并文本各token的logits分数; token即指文本中包含的单
词及标点符号等, logits分数表示当前token是候选词义所对应的增强描述的开始或结束
位置的概率; 最后, 预测模块对合并文本各token的logits分数, 进行softmax、 argmax操作,
预测正确词义所对应的增强描述的文本跨度, 进 而判断出歧义词的正确词义; 具体如下:
知识增强模块首先将对知识本体进行检索, 得到歧义词的候选词义的注释、 候选词义
的例句、 候选词义的上位词义注释, 并进 行拼接, 得到候选词义的增强描述; 而后, 将得到的
候选词义的增强描述和歧义词的上下文进 行拼接, 得到歧义词的上下文和候选词义增强描
述的合并文本; 最后, 将合并文本传递给基于局部自注意力的Transformer模块;
基于局部自注意力的Transformer模块首先将合并文本转化为token向量, 然后分别通
过双向编码器、 双向解码器对合并文本的token 向量进行编码、 解码操作, 双向编码器利用
局部自注意力机制, 采取一个滑动窗口使合并文本中的各token只关注其两侧一半窗口大
小的tokens, 也即合并文本中各token只和两侧一半窗口大小的tokens进行交互; 最后通过
线性层得到合并文本各to ken的logits分数, 并将其送入预测模块;
预测模块对合 并文本中各token的logit s分数, 利用soft max、 argmax进行处理, 预测可
能的正确词义所对应的增强描述的文本跨度; 该文本跨度所对应的候选词义, 即模型预测
所得的歧义词的正确词义。
2.根据权利要求1所述的基于局部自注意力的知识增强的词义消歧方法, 其特征在于,
所述知识增强模块的构建过程具体如下:
将歧义词w的上下文
和w候选词义的注释
候选词
义的例句
候选词义的上位词义注释
拼接起来用A
表示, 即A={G1,ES1,HG1,G2,ES2,HG2,...,Gn,ESn,HGn}, 作为基于局部自注意力的
Transformer模块的输入; 其中w代表单词, m代表上下文的单词数量, |g|代表 候选词义的注
释的单词数量、 |e|代表候选词 义的例句的单词数量、 |h|代表候选词 义的上位词 义注释的
单词数量, 上标n代表 候选词义的数量, 上标c、 g、 e、 h分别表 示上下文、 注释、 例句、 上位词义
注释; 公式描述如下:
其中, 公式(1)中的input表示歧义词的上下文和候选词义增强描述的合并文本; 标签
<s>、 </ s>包围整个输入序列; 标签</d>将歧义词的上下文和外部的语义知识 也即候
选词义的注释、 候选词义的例句、 候选词义的上位词义注释分割开来; 上标g1、 e1、 h1分别代
表歧义词的第一个候选词义的注释、 第一个候选词义的例句、 第一个候选词义的上位词义
注释, 上标gn、 en、 hn分别代表歧义词的第n个候选词义的注释、 第n个候选词义的例句、 第n权 利 要 求 书 1/4 页
2
CN 115526184 A
2个候选词义的上位词义注释; 下标|gn|、 |en|、 |hn|分别代表第n个候选词义的注释的单词
数量、 第n个候选词义的例句的单词数量、 第n个候选词义的上位词注释的单词数量; 其他符
号在之前已经说明, 不再累述。
3.根据权利要求1所述的基于局部自注意力的知识增强的词义消歧方法, 其特征在于,
所述基于局部自注意力的Transformer模块的构建过程具体如下:
基于局部自注意力的Transformer模块首先将公式(1)得到 的歧义词的上下文和候选
词义增强描述的合并文本转 化为token向量的形式, 记作T, 公式描述如下:
T={t1,t2,...tL} (2)
其中, t代表合并文本中的某个token的向量表示, 称为token向量; 下标L代表合并文本
中token的数量;
基于局部自注意力的Transformer模块的双向编码器, 以公式(2)得到的合并文本各
token的向量表 示作为输入, 采用固定窗口大小w的滑动窗口, 使各token只关注 其每一侧二
分之一w个tokens, 双向编码器层第l层的输出记为
即经过局部自注意力机制得到的第
l层第i个to ken向量表示; 局部自注意力机制的公式描述如下:
其中, 公式(3)中的
是局部query矩阵, 下标
代表局部注意力的
关注范围,
代表双向编码器层l ‑1层的第i个query向量, 用来计算第i个token向量与局
部key矩阵中的token向量的相似度;
是局部key矩
阵,
代表双向编码器层l ‑1层的第i个key向量, 用来计算第i个token向量与局部query
矩阵中的token向量的相似度; T表示矩阵转置;
是
局部valu e矩阵,
代表双向编 码器层l‑1层的第i个valu e向量, 用来计算当前t oken向量
与其他token向量最后的注意力分数; 局部query矩阵、 局部key矩阵、 局部value矩阵都是由
各token向量形成的输入矩阵与不同的可训练的参数矩阵相乘, 经过线性变换得来的; dk是
嵌入向量的维度; sum()为 求和函数; softmax()为归一 化指数函数;
基于局部自注意力的Transformer模块对多层双向编码器、 双向解码器的进行堆叠; 最
后, 歧义词的上下文和候选词义增强描述的合并文本的token向量表示在通过最后一层双
向编码器后, 得到隐藏状态的表示, 公式描述如下:
h1,h2,…,hL=Transformer(T) (4)
其中,
h代表隐藏状态的表示; d代表隐藏状态的维度; 所有的隐藏状态表示 形成
最终的矩阵H=[h1,h2,…,hL]; Transformer 代表Transformer模型;
将公式(4)得到的矩阵H送入线性层处理, 得到合并文本各token的logits分数, 用矩阵
Z表示, 公式描述如下:
Z=WTH+b (5)
Start=[Z11…Z1L] (6)
End=[Z21…Z2L] (7)权 利 要 求 书 2/4 页
3
CN 115526184 A
3
专利 基于局部自注意力的知识增强的词义消歧方法和装置
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:07:03上传分享