专利 实体数据处理、实体链接方法、装置和计算机设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211391389.8 (22)申请日 2022.11.08 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人单子非　李昱昕　陈谦　 (74)专利代理机构华进联合专利商标代理有限公司 44224 专利代理师毛丹 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/279(2020.01) G06N 20/00(2019.01) (54)发明名称实体数据处理、实体链接方法、装置和计算机设备 (57)摘要本申请涉及一种实体数据处理、实体链接方法、装置和计算机设备，包括：获取第一训练样本；第一训练样本包括第一训练实体对应的语义特征数据和训练内容数据；通过待训练的第一语境编码模型对训练内容数据进行编码，得到第一训练实体对应的第一语境特征表示；通过待训练的第一实体编码模型对语义特征数据进行编码，得到第一训练实体对应的第一语义特征表示；基于第一语境特征表示和第一语义特征表示确定第一特征表示损失，基于第一特征表示损失调整第一语境编码模型和第一实体编码模型的模型参数并继续训练，直至训练完成，获得训练后的第一目标实体编码模型。采用本方法能够提高语义特征表示的准确性。权利要求书5页说明书24页附图9页 CN 115438674 A 2022.12.06 CN 115438674 A 1.一种实体数据处理方法，其特征在于，所述方法包括：获取第一训练样本；所述第一训练样本包括第一训练实体对应的语义特征数据和训练内容数据，所述语义特征数据是从所述第一训练实体所在的知识图谱中获取的，所述训练内容数据与所述第一训练实体存在实体链接关系；通过待训练的第一语境编码模型对所述训练内容数据进行编码，得到所述第一训练实体对应的第一语境特征表示；通过待训练的第一实体编码模型对所述语义特征数据进行编码，得到所述第一训练实体对应的第一语义特征表示；基于所述第一语境特征表示和所述第一语义特征表示确定第一特征表示损失，基于所述第一特征表示损失调整所述第一语境编码模型和所述第一实体编码模型的模型参数并继续训练，直至训练完成，获得训练后的第一目标实体编码模型；所述第一目标实体编码模型用于针对目标知识图谱中各实体生成对应的目标语义特征表示，各所述目标语义特征表示用于对目标内容数据进行实体链接处理。 2.根据权利要求1所述的方法，其特征在于，所述训练内容数据包括训练文本，所述训练文本中包括所述第一训练实体对应的实体指称；所述通过待训练的第一语境编码模型对所述训练内容数据进行编码，得到所述第一训练实体对应的第一语境特征表示，包括：对所述训练文本中的实体指称添加边界标记，得到目标训练文本；将所述目标训练文本输入待训练的第一语境编码模型，通过所述第一语境编码模型对所述目标训练文本进行编码，以得到所述第一训练实体对应的语境特征表示。 3.根据权利要求2所述的方法，其特征在于，所述训练内容数据还包括训练视频或者训练音频中的至少一种；所述将所述目标训练文本输入待训练的第一语境编码模型，通过所述第一语境编码模型对所述目标训练文本进行编码，以得到所述第一训练实体对应的语境特征表示，包括：将目标训练内容及所述目标训练文本输入待训练的第一语境编码模型；所述目标训练内容包括训练视频或者训练音频中的至少一种；通过所述第一语境编码模型分别对所述目标训练文本和所述目标训练内容进行编码，得到所述目标训练文本对应的文本特征表示和所述目标训练内容对应的内容特征表示；融合所述文本特征表示和所述内容特征表示，得到所述第一训练实体对应的语境特征表示。 4.根据权利要求1所述的方法，其特征在于，所述方法包括：针对所述目标知识图谱的目标实体，从所述目标知识图谱中确定所述目标实体对应的初始知识子图；针对所述初始知识子图中每个节点，从所述目标知识图谱中获得所针对的节点对应的语义特征数据，并将所述所针对的节点对应的语义特征数据输入所述第一目标实体编码模型中，获得所述所针对的节点对应的初始语义特征表示；通过各个节点各自对应的初始语义特征表示对所述初始知识子图进行向量初始化，得到目标知识子图；通过训练后的第二目标实体编码模型对所述目标知识子图进行编码，得到所述目标实体对应的目标语义特征表示。权　利　要　求　书 1/5 页 2 CN 115438674 A 25.根据权利要求4所述的方法，其特征在于，所述第二目标实体编码模型通过以下步骤训练得到：获取第二训练样本；所述第二训练样本包括第二训练实体对应的训练知识子图和训练内容数据；所述训练知识子图是通过对所述第二训练实体对应的初始知识子图进行向量初始化得到的，所述第二训练实体对应的初始知识子图是从所述第二训练实体所在知识图谱中确定的；通过待训练的第二语境编码模型对所述第二训练实体对应的训练内容数据进行编码，得到所述第二训练实体对应的第二语境特征表示；通过待训练的第二实体编码模型对所述训练知识子图进行编码，得到所述第二训练实体对应的第二语义特征表示；基于所述第二语境特征表示和所述第二语义特征表示确定第二特征表示损失，基于所述第二特征表示损失调整所述第二语境编码模型和所述第二实体编码模型的模型参数并继续训练，直至训练完成，获得训练后的第二目标实体编码模型。 6.根据权利要求5所述的方法，其特征在于，所述获取第二训练样本，包括：针对所述第二训练实体，从所述第二训练实体所在知识图谱中确定所述第二训练实体对应的初始知识子图；针对所述第二训练实体对应的初始知识子图中每个节点，从所述第二训练实体所在知识图谱中获得所针对的节点对应的语义特征数据，并将所述所针对的节点对应的语义特征数据输入所述第一目标实体编码模型中，获得所述所针对的节点对应的初始语义特征表示；通过各个节点各自对应的初始语义特征表示，对所述第二训练实体对应的初始知识子图进行向量初始化，得到所述第二训练实体对应的训练知识子图；基于所述第二训练实体对应的训练知识子图和所述第二训练实体对应的训练内容数据，构建所述第二训练实体对应的第二训练样本。 7.根据权利要求1至 6任意一项所述的方法，其特征在于，所述方法还包括：获取第三训练样本；所述第三训练样本包括第三训练实体对应的训练内容数据；通过待训练的第三语境编码模型对所述第三训练实体对应的训练内容数据进行编码，得到所述第三训练实体对应的第三语境特征表示；基于所述第三语境特征表示和所述第三训练实体对应的第三语义特征表示确定第三特征表示损失；所述第三语义特征表示是通过训练后的目标实体编码模型对所述第三训练实体对应的语义特征数据进行编码得到的；基于所述第三特征表示损失调整所述第三语境编码模型的模型参数并继续训练，直至训练完成，获得训练后的第三目标语境编码模型；所述第三目标语境编码模型用于针对目标知识图谱中的实体生成对应的目标语境特征表示，所述目标语境特征表示用于进行实体链接处理。 8.一种实体链接方法，其特征在于，所述方法包括：确定目标内容数据，对所述目标内容数据进行实体词识别得到目标实体指称；对所述目标内容数据进行编码，得到所述目标实体指称对应的目标语境特征表示；基于预先建立的实体指称和目标知识图谱中实体之间的映射关系，确定所述目标实体权　利　要　求　书 2/5 页 3 CN 115438674 A 3

专利 实体数据处理、实体链接方法、装置和计算机设备

专利实体数据处理、实体链接方法、装置和计算机设备