专利 基于局部自注意力的知识增强的词义消歧方法和装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211228528.5 (22)申请日 2022.10.08 (71)申请人齐鲁工业大学地址 250353 山东省济南市长清区大学路 3501号 (72)发明人鹿文鹏　张国标　张维玉　乔新晓　郑超群　马凤英　 (74)专利代理机构济南信达专利事务所有限公司 37100 专利代理师孙园园 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/289(2020.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称基于局部自注意力的知识增强的词义消歧方法和装置 (57)摘要本发明公开了一种基于局部自注意力的知识增强的词义消歧方法和装置，属于人工智能、自然语言处理领域。本发明要解决的技术问题为如何增强歧义词的词义表示，抽取候选词义正确的文本跨度，进而判定歧义词的正确词义。采用的技术方案为： ①基于局部自注意力的知识增强的词义消歧方法，该方法包括如下步骤： S1、构建知识增强模块； S2、构建基于局部自注意力的 Transformer模块； S3、构建预测模块； S4、训练词义消歧模型。 ②基于局部自注意力的知识增强的词义消歧装置，该装置包括：知识增强模块构建单元、基于局部自注意力的Transformer模块构建单元、预测模块构建单元、词义消歧模型训练单元。权利要求书4页说明书15页附图2页 CN 115526184 A 2022.12.27 CN 115526184 A 1.一种基于局部自注意力的知识增强的词义消歧方法，其特征在于，该方法首先通过知识增强模块将歧义词的上下文与从知识本体中检索得到的候选词义的注释、例句等语义知识进行拼接，得到歧义词的上下文和候选词义增强描述的合并文本，简称为合并文本；而后，基于局部自注意力的Transformer模块通过多层双向编码器、双向解码器的堆叠以实现对合并文本的编码、解码，得到合并文本各token的logits分数； token即指文本中包含的单词及标点符号等， logits分数表示当前token是候选词义所对应的增强描述的开始或结束位置的概率；最后，预测模块对合并文本各token的logits分数，进行softmax、 argmax操作，预测正确词义所对应的增强描述的文本跨度，进而判断出歧义词的正确词义；具体如下：知识增强模块首先将对知识本体进行检索，得到歧义词的候选词义的注释、候选词义的例句、候选词义的上位词义注释，并进行拼接，得到候选词义的增强描述；而后，将得到的候选词义的增强描述和歧义词的上下文进行拼接，得到歧义词的上下文和候选词义增强描述的合并文本；最后，将合并文本传递给基于局部自注意力的Transformer模块；基于局部自注意力的Transformer模块首先将合并文本转化为token向量，然后分别通过双向编码器、双向解码器对合并文本的token 向量进行编码、解码操作，双向编码器利用局部自注意力机制，采取一个滑动窗口使合并文本中的各token只关注其两侧一半窗口大小的tokens，也即合并文本中各token只和两侧一半窗口大小的tokens进行交互；最后通过线性层得到合并文本各to ken的logits分数，并将其送入预测模块；预测模块对合并文本中各token的logit s分数，利用soft max、 argmax进行处理，预测可能的正确词义所对应的增强描述的文本跨度；该文本跨度所对应的候选词义，即模型预测所得的歧义词的正确词义。 2.根据权利要求1所述的基于局部自注意力的知识增强的词义消歧方法，其特征在于，所述知识增强模块的构建过程具体如下：将歧义词w的上下文和w候选词义的注释候选词义的例句候选词义的上位词义注释拼接起来用A 表示，即A＝{G1,ES1,HG1,G2,ES2,HG2,...,Gn,ESn,HGn}，作为基于局部自注意力的 Transformer模块的输入；其中w代表单词， m代表上下文的单词数量， |g|代表候选词义的注释的单词数量、 |e|代表候选词义的例句的单词数量、 |h|代表候选词义的上位词义注释的单词数量，上标n代表候选词义的数量，上标c、 g、 e、 h分别表示上下文、注释、例句、上位词义注释；公式描述如下：其中，公式(1)中的input表示歧义词的上下文和候选词义增强描述的合并文本；标签＜s＞、＜/ s＞包围整个输入序列；标签＜/d＞将歧义词的上下文和外部的语义知识也即候选词义的注释、候选词义的例句、候选词义的上位词义注释分割开来；上标g1、 e1、 h1分别代表歧义词的第一个候选词义的注释、第一个候选词义的例句、第一个候选词义的上位词义注释，上标gn、 en、 hn分别代表歧义词的第n个候选词义的注释、第n个候选词义的例句、第n权　利　要　求　书 1/4 页 2 CN 115526184 A 2个候选词义的上位词义注释；下标|gn|、 |en|、 |hn|分别代表第n个候选词义的注释的单词数量、第n个候选词义的例句的单词数量、第n个候选词义的上位词注释的单词数量；其他符号在之前已经说明，不再累述。 3.根据权利要求1所述的基于局部自注意力的知识增强的词义消歧方法，其特征在于，所述基于局部自注意力的Transformer模块的构建过程具体如下：基于局部自注意力的Transformer模块首先将公式(1)得到的歧义词的上下文和候选词义增强描述的合并文本转化为token向量的形式，记作T，公式描述如下： T＝{t1,t2,...tL} (2) 其中， t代表合并文本中的某个token的向量表示，称为token向量；下标L代表合并文本中token的数量；基于局部自注意力的Transformer模块的双向编码器，以公式(2)得到的合并文本各 token的向量表示作为输入，采用固定窗口大小w的滑动窗口，使各token只关注其每一侧二分之一w个tokens，双向编码器层第l层的输出记为即经过局部自注意力机制得到的第 l层第i个to ken向量表示；局部自注意力机制的公式描述如下：其中，公式(3)中的是局部query矩阵，下标代表局部注意力的关注范围，代表双向编码器层l ‑1层的第i个query向量，用来计算第i个token向量与局部key矩阵中的token向量的相似度；是局部key矩阵，代表双向编码器层l ‑1层的第i个key向量，用来计算第i个token向量与局部query 矩阵中的token向量的相似度； T表示矩阵转置；是局部valu e矩阵，代表双向编码器层l‑1层的第i个valu e向量，用来计算当前t oken向量与其他token向量最后的注意力分数；局部query矩阵、局部key矩阵、局部value矩阵都是由各token向量形成的输入矩阵与不同的可训练的参数矩阵相乘，经过线性变换得来的； dk是嵌入向量的维度； sum()为求和函数； softmax()为归一化指数函数；基于局部自注意力的Transformer模块对多层双向编码器、双向解码器的进行堆叠；最后，歧义词的上下文和候选词义增强描述的合并文本的token向量表示在通过最后一层双向编码器后，得到隐藏状态的表示，公式描述如下： h1,h2,…,hL＝Transformer(T) (4) 其中， h代表隐藏状态的表示； d代表隐藏状态的维度；所有的隐藏状态表示形成最终的矩阵H＝[h1,h2,…,hL]； Transformer 代表Transformer模型；将公式(4)得到的矩阵H送入线性层处理，得到合并文本各token的logits分数，用矩阵 Z表示，公式描述如下： Z＝WTH+b (5) Start＝[Z11…Z1L] (6) End＝[Z21…Z2L] (7)权　利　要　求　书 2/4 页 3 CN 115526184 A 3

专利 基于局部自注意力的知识增强的词义消歧方法和装置

专利基于局部自注意力的知识增强的词义消歧方法和装置