专利 基于隐式句法结构依赖的关系抽取方法以及可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210374608.5 (22)申请日 2022.04.11 (71)申请人北京合立春天科技发展有限公司地址 100000 北京市石景山区实兴东街11 号二层56室 (72)发明人王剑　双锴　马利川　谭逸佳　 (74)专利代理机构洛阳公信知识产权事务所 (普通合伙) 41120 专利代理师逯雪峰 (51)Int.Cl. G06F 40/211(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于隐式句法结构依赖的关系抽取方法以及可读存储介质 (57)摘要本发明提供一种基于隐式句法结构依赖的关系抽取方法以及可读存储介质，本发明的关系抽取方法在不加入任何人为先验信息的前提下，通过神经网络自适应地学习输入文本中单词之间地依赖，隐式引入句法树地结构，提高模型对语义的理解能力；而且，本发明使用了Relation ‑ Aware的细粒度注意力机制，对于关系抽取中的每个关系都分配一个向量，与文本中的单词通过注意力机制生成最后的表征，避免了已有注意力机制对多个关系标签向量的混淆。权利要求书1页说明书5页附图2页 CN 114676680 A 2022.06.28 CN 114676680 A 1.基于隐式句法结构依赖的关系抽取方法，其特征在于，包括以下步骤：步骤1：使用LSTM神经网络对输入的单词进行编码，并利用卷积神经网络对输入文本中相邻的单词之间抽取得到相对句法距离；步骤2：将相对句法距离与 LSTM神经网络中的门控机制相结合，控制信息在不同时间步中的依赖程度，预训练得到一个能隐式解析文本语义的RS D—LSTM语言模型；步骤3：对于经过RSD—LSTM语言模型向量化处理后的文本，使用Reletion ‑Aware注意力机制来对输入的文本进行特征抽取，对每一个关系都建立一个特定的向量表征；步骤4：基于文本特征和标注的标签，进行有监督的训练，得到关系抽取模型，其中 Realtion ‑Aware注意力机制加权输出的特征向量作为全连接层的输入，对全连接层的输出与每一个关系向量之间做内积，采用Softmax分类器进行关系类别的分类。 2.根据权利要求1所述的基于隐式句法结构依赖的关系抽取方法，其特征在于，步骤1 在计算相对句法距离时，由卷积神经网络的卷积层和完全连接层进行计算；其中，卷积层，在文本序列的垂直方向做卷积，卷积核的宽度固定为词向量的维度，高度是2，代表只对两个相邻的单词做卷积得到句法距离；依次对每个可能的窗口做卷积操作得到句法距离的集合；完全连接层，计算抽取到的句法距离与全局语义向量的相似度，将归一化后的相似度作为两个相邻单词之间的依赖程度。 3.根据权利要求2所述的基于隐式句法结构依赖的关系抽取方法，其特征在于，相对句法距离的计算公式为： Dt＝sigmoid(dt*E) 其中dt表示从xt‑1和xt两个输入单词之间抽取得到的句法距离， E代表全局的语义向量， Dt表示从xt‑1和xt两个输入单词之间抽取得到的相对句法距离。 4.根据权利要求1所述的基于隐式句法结构依赖的关系抽取方法，其特征在于，步骤2 具体包括：把两个相邻单词得到的相对句法距离融入到LSTM网络的遗忘门和输入门当中，根据句法树中两个相邻单词之间的语义依赖程度来控制单词之间信息传递的程度，然后预训练得到一个能隐式解析文本语义的RS D—LSTM语言模型。 5.根据权利要求1所述的基于隐式句法结构依赖的关系抽取方法，其特征在于，步骤3 中，所述的Reletion ‑Aware注意力机制在对输入的文本进行处理时，赋予每个类别标签一个特定的向量，通过标签向量计算句子中每个单词对应的注意力权重，加权生成文本表征，对于每一个标签都采用该注意力机制进行计算，最后得到K个不同的文本表征，对应K个关系类别。 6.根据权利要求5所述的基于隐式句法结构依赖的关系抽取方法，其特征在于，所述注意力权重的计算公式为：其中dk代表第k个关系标签， ei代表输入文本中的第i个单词。 7.可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至6任意一项所述方法的步骤。权　利　要　求　书 1/1 页 2 CN 114676680 A 2基于隐式句法结构依赖的关系抽取方法以及可读存储介质技术领域 [0001]本发明涉及自然语言处理领域，具体涉及一种基于隐式句法结构依赖的关系抽取方法以及可读存储介质。背景技术 [0002]自然语言中，句子成分之间的关系通常是树状的：单词、短语和从句按层次构成一个句子，不同成分之间的依赖性决定了句子的句法结构。这种复杂的树状结构对理解自然语言至关重要。然而，循环神经网络(RNN)对语言进行了顺序建模，未能对层次结构的句法依赖进行全面编码，导致网络在基于理解的任务上表现不佳。 [0003]此外，随着网络信息的飞速增长，关系抽取任务已经逐渐成为自然语言处理领域的关键任务之一，关系抽取任务的核心就是根据给定的文本和文本中的两个实体，得到实体之间的关系，现有关系抽取任务使用的注意力机制使用一个向量来表示所有的关系，这种方式会混淆不同关系的表征，导致准确率较低。发明内容 [0004]有鉴于此，本发明的目的是提供一种基于隐式句法结构依赖的关系抽取方法以及可读存储介质，以解决背景技术中提到的技术问题。 [0005]为了达到上述目的，本发明所采用的技术方案是：基于隐式句法结构依赖的关系抽取方法，其特征在于，包括以下步骤：步骤1：使用LSTM神经网络对输入的单词进行编码，并利用卷积神经网络对输入文本中相邻的单词之间抽取得到相对句法距离；步骤2：将相对句法距离与LSTM神经网络中的门控机制相结合，控制信息在不同时间步中的依赖程度，预训练得到一个能隐式解析文本语义的RS D—LSTM语言模型；步骤3：对于经过RSD—LSTM语言模型向量化处理后的文本，使用Reletion ‑Aware 注意力机制来对输入的文本进行特征抽取，对每一个关系都建立一个特定的向量表征，从而改进已有注意力机制只设置一个关系向量的缺陷；步骤4：基于文本特征和标注的标签，进行有监督的训练，得到关系抽取模型，其中 Realtion ‑Aware注意力机制加权输出的特征向量作为全连接层的输入，对全连接层的输出与每一个关系向量之间做内积，采用Softmax分类器进行关系类别的分类。 [0006]进一步的，步骤1在计算相对句法距离时，由卷积神经网络的卷积层和完全连接层进行计算；其中，卷积层，在文本序列的垂直方向做卷积，卷积核的宽度固定为词向量的维度，高度是2，代表只对两个相邻的单词做卷积得到句法距离；依次对每个可能的窗口做卷积操作得到句法距离的集合；完全连接层，计算抽取到的句法距离与全局语义向量的相似度，将归一化后的相似度作为两个相邻单词之间的依赖程度。说　明　书 1/5 页 3 CN 114676680 A 3

专利 基于隐式句法结构依赖的关系抽取方法以及可读存储介质

专利基于隐式句法结构依赖的关系抽取方法以及可读存储介质