专利 基于对偶对比学习的零样本关系抽取方法和系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210441073.9 (22)申请日 2022.04.26 (65)同一申请的已公布的文献号申请公布号 CN 114548325 A (43)申请公布日 2022.05.27 (73)专利权人北京大学地址 100091 北京市海淀区颐和园路5号 (72)发明人张世琨　叶蔚　李博　谢睿　 (74)专利代理机构北京华创智道知识产权代理事务所(普通合伙) 11888 专利代理师周倩 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (56)对比文件 CN 111950269 A,2020.1 1.17 CN 114090792 A,2022.02.25 CN 111666427 A,2020.09.15 CN 113705237 A,2021.1 1.26 CN 110633467 A,2019.12.31 US 20213743 58 A1,2021.12.02 Bo Li 等.Multi-view I nference for Relation Extracti on with Uncertai n Knowledge. 《w ww.arxiv.org》 .2021,全文. 审查员李婉怡 (54)发明名称基于对偶对比学习的零样本关系抽取方法和系统 (57)摘要本发明涉及软件检测技术领域，提出一种基于对偶对比学习的零样本关系抽取方法和系统，其中方法包括：获取样本数据集，将样本数据集分为训练集、验证集和测试集；对训练集进行预处理；对预处理后的样本进行编码，结合位置编码，得到各样本的向量表示，对训练集中样本的标签进行编码，得到各标签的向量表示；结合样本层的对比学习和标签层的对比学习计算模型损失，计算模型损失后构建关系抽取模型；将验证集输入关系抽取模型，得到最优关系抽取模型；将测试集输入优化后的关系抽取模型，得到语义匹配的结果作为零样本关系抽取结果。根据本发明的方案，保证零样本关系抽取的高效和精准，解决了现有技术中对零样本关系抽取迫切需求的问题。权利要求书2页说明书9页附图2页 CN 114548325 B 2022.08.02 CN 114548325 B 1.基于对偶对比学习的零样本关系抽取方法，其特征在于，包括：获取样本数据集，根据所述样本数据集中的样本的标签将所述样本数据集分为训练集、验证集和测试集；对所述训练集进行预处理，得到所述训练集中目标实体的位置编码；采用DeBERTa模型对预处理后的所述训练集中的各样本进行编码，结合所述位置编码，得到各样本的向量表示，对所述训练集中的各样本的标签进行编码，得到各标签的向量表示；结合对各样本的向量表示进行的样本层的对比学习以及对各标签的向量表示进行的标签层的对比学习计算模型损失，计算模型损失后优化所述DeBERTa模型作为关系抽取模型；将验证集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述关系抽取模型，获取并保存验证集中样本与标签的语义相似度最高的最优关系抽取模型用于所述测试集；将测试集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述最优关系抽取模型，得到语义匹配的结果作为零样本关系抽取结果。 2.根据权利要求1所述的基于对偶对比学习的零样本关系抽取方法，其特征在于，所述位置编码具有两个向量表示，其中第一个向量表示样本中的每个单词与所述目标实体的头实体的相对位置关系，第二个向量表示样本中的每个单词与所述目标实体的尾实体的相对位置关系。 3.根据权利要求2所述的基于对偶对比学习的零样本关系抽取方法，其特征在于，采用 DeBERTa模型对预处理后的所述训练集中的各样本进行编码，结合所述位置编码，得到各样本的向量表示为：使用DeBERTa模型对各样本进行编码，随后拼接所述第一个向量表示和所述第二个向量表示，经过双层神经网络，得到各样本的向量表示。 4.根据权利要求3所述的基于对偶对比学习的零样本关系抽取方法，其特征在于，对所述训练集中的各样本的标签进行编码，得到各标签的向量表示为：获取各所述标签的现有描述文本片段，将各所述描述文本片段进行编码，将编码后的各所述描述文本片段输入所述双层神经网络，通过所述双层神经网络的平均池化层得到各所述标签的向量表示。 5.根据权利要求4所述的基于对偶对比学习的零样本关系抽取方法，其特征在于，所述样本层的对比学习为：将各样本轮流作为对照样本，将其他未作为所述对照样本时的样本与当前所述对照样本进行对比，与所述对照样本标签相同的样本作为正样本，与所述对照样本标签不同的样本作为负样本。 6.根据权利要求5所述的基于对偶对比学习的零样本关系抽取方法，其特征在于，所述标签层的对比学习为：将所述训练集中存在的标签轮流作为对照标签，将属于当前所述对照标签的样本作为正样本，不属于当前所述对照标签的样本作为负样本。 7.基于对偶对比学习的零样本关系抽取系统，其特征在于，包括：权　利　要　求　书 1/2 页 2 CN 114548325 B 2数据获取分类模块，获取样本数据集，根据所述样本数据集中的样本的标签将所述样本数据集分为训练集、验证集和测试集；预处理模块，对所述训练集进行预处理，得到所述训练集中目标实体的位置编码；数据编码模块，采用DeBERTa模型对预处理后的所述训练集中的各样本进行编码，结合所述位置编码，得到各样本的向量表示，对所述训练集中的各样本的标签进行编码，得到各标签的向量表示；模型构建模块，结合对各样本的向量表示进行的样本层的对比学习以及对各标签的向量表示进行的标签层的对比学习计算模型损失，计算模型损失后优化所述DeBERTa模型作为关系抽取模型；模型优化模块，将验证集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述关系抽取模型，获取并保存验证集中样本与标签的语义相似度最高的最优关系抽取模型用于所述测试集；测试模块，将测试集进行所述预处理并得到其中各样本的向量表示以及各标签的向量表示后输入所述最优关系抽取模型，得到语义匹配的结果作为零样本关系抽取结果。 8.一种电子设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求 1至6中任一项所述的基于对偶对比学习的零样本关系抽取方法。 9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求 1至6中任一项所述的基于对偶对比学习的零样本关系抽取方法。权　利　要　求　书 2/2 页 3 CN 114548325 B 3

专利 基于对偶对比学习的零样本关系抽取方法和系统

专利基于对偶对比学习的零样本关系抽取方法和系统