安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211391389.8 (22)申请日 2022.11.08 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518057 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 单子非 李昱昕 陈谦  (74)专利代理 机构 华进联合专利商标代理有限 公司 44224 专利代理师 毛丹 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/279(2020.01) G06N 20/00(2019.01) (54)发明名称 实体数据处理、 实体链接方法、 装置和计算 机设备 (57)摘要 本申请涉及一种实体数据处理、 实体链接方 法、 装置和计算机设备, 包括: 获取第一训练样 本; 第一训练样本包括第一训练实体对应的语义 特征数据和训练 内容数据; 通过待训练的第一语 境编码模型对训练 内容数据进行编码, 得到第一 训练实体对应的第一语境特征表 示; 通过待训练 的第一实体编码模型对语义特征数据进行编码, 得到第一训练实体对应的第一语义特征表示; 基 于第一语境特征表示和第一语义特征表示确定 第一特征表 示损失, 基于第一特征表 示损失调整 第一语境编码模型和第一实体编码模型的模型 参数并继续训练, 直至训练完成, 获得训练后的 第一目标 实体编码模型。 采用本方法能够提高语 义特征表示的准确性。 权利要求书5页 说明书24页 附图9页 CN 115438674 A 2022.12.06 CN 115438674 A 1.一种实体数据处 理方法, 其特 征在于, 所述方法包括: 获取第一训练样本; 所述第 一训练样本包括第 一训练实体对应的语义特征数据和训练 内容数据, 所述语义特征数据是从所述第一训练实体所在的知识图谱中获取 的, 所述训练 内容数据与所述第一训练实体存在实体链接关系; 通过待训练的第一语境编码模型对所述训练内容数据进行编码, 得到所述第 一训练实 体对应的第一语境特 征表示; 通过待训练的第一实体编码模型对所述语义特征数据进行编码, 得到所述第 一训练实 体对应的第一语义特 征表示; 基于所述第 一语境特征表示和所述第 一语义特征表示确定第 一特征表示损失, 基于所 述第一特征表示损失调整所述第一语境编码模型和所述第一实体编码模型的模型参数并 继续训练, 直至训练完成, 获得训练后的第一目标实体编 码模型; 所述第一目标实体编 码模 型用于针对目标知识图谱中各实体生成对应的目标语义特征表示, 各所述目标语义特征表 示用于对目标内容数据进行实体链接处 理。 2.根据权利要求1所述的方法, 其特征在于, 所述训练内容数据包括训练文本, 所述训 练文本中包括所述第一训练实体对应的实体指称; 所述通过待训练的第一语境编 码模型对 所述训练内容数据进行编码, 得到所述第一训练实体对应的第一语境特 征表示, 包括: 对所述训练文本中的实体指称添加边界标记, 得到目标训练文本; 将所述目标训练文本输入待训练的第 一语境编码模型, 通过所述第 一语境编码模型对 所述目标训练文本进行编码, 以得到所述第一训练实体对应的语境特 征表示。 3.根据权利要求2所述的方法, 其特征在于, 所述训练内容数据还包括训练视频或者训 练音频中的至少一种; 所述将所述 目标训练文本输入待训练的第一语境编码模型, 通过所 述第一语境编 码模型对所述目标训练文本进 行编码, 以得到所述第一训练实体对应的语境 特征表示, 包括: 将目标训练内容及所述目标训练文本输入待训练 的第一语境编码模型; 所述目标训练 内容包括训练视频或者训练音频中的至少一种; 通过所述第 一语境编码模型分别对所述目标训练文本和所述目标训练内容进行编码, 得到所述目标训练文本对应的文本特 征表示和所述目标训练内容对应的内容特 征表示; 融合所述文本特征表示和所述内容特征表示, 得到所述第 一训练实体对应的语境特征 表示。 4.根据权利要求1所述的方法, 其特 征在于, 所述方法包括: 针对所述目标知识图谱的目标实体, 从所述目标知识图谱中确定所述目标实体对应的 初始知识子图; 针对所述初始知识子图中每个节点, 从所述目标知识图谱中获得所针对的节点对应的 语义特征数据, 并将所述所针对的节点对应的语义特征数据输入所述第一目标实体编 码模 型中, 获得 所述所针对的节点对应的初始语义特 征表示; 通过各个节点各自对应的初始语义特征表示对所述初始知识子图进行向量初始化, 得 到目标知识子图; 通过训练后的第二目标实体编码模型对所述目标知识子图进行编码, 得到所述目标实 体对应的目标语义特 征表示。权 利 要 求 书 1/5 页 2 CN 115438674 A 25.根据权利要求4所述的方法, 其特征在于, 所述第 二目标实体编码模型通过以下步骤 训练得到: 获取第二训练样本; 所述第 二训练样本包括第 二训练实体对应的训练知识子图和训练 内容数据; 所述训练知识子图是通过对所述第二训练实体对应的初始知识子图进 行向量初 始化得到的, 所述第二训练实体对应的初始知识子图是从所述第二训练实体所在知识图谱 中确定的; 通过待训练的第二语境编码模型对所述第 二训练实体对应的训练内容数据进行编码, 得到所述第二训练实体对应的第二语境特 征表示; 通过待训练的第二实体编码模型对所述训练知识子图进行编码, 得到所述第 二训练实 体对应的第二语义特 征表示; 基于所述第 二语境特征表示和所述第 二语义特征表示确定第 二特征表示损失, 基于所 述第二特征表示损失调整所述第二语境编码模型和所述第二实体编码模型的模型参数并 继续训练, 直至训练完成, 获得训练后的第二目标实体编码模型。 6.根据权利要求5所述的方法, 其特 征在于, 所述获取第二训练样本, 包括: 针对所述第 二训练实体, 从所述第 二训练实体所在知识图谱中确定所述第 二训练实体 对应的初始知识子图; 针对所述第 二训练实体对应的初始知识子图中每个节点, 从所述第 二训练实体所在知 识图谱中获得所针对的节点对应的语义特征数据, 并将所述所针对的节点对应的语义特征 数据输入所述第一目标实体编码模型中, 获得所述所针对的节点对应的初始语义特征表 示; 通过各个节点各自对应的初始语义特征表示, 对所述第 二训练实体对应的初始知识子 图进行向量初始化, 得到所述第二训练实体对应的训练知识子图; 基于所述第二训练实体对应的训练知识子图和所述第二训练实体对应的训练内容数 据, 构建所述第二训练实体对应的第二训练样本 。 7.根据权利要求1至 6任意一项所述的方法, 其特 征在于, 所述方法还 包括: 获取第三训练样本; 所述第三训练样本包括第三训练实体对应的训练内容数据; 通过待训练的第三语境编码模型对所述第 三训练实体对应的训练内容数据进行编码, 得到所述第三训练实体对应的第三语境特 征表示; 基于所述第三语境特征表示和所述第三训练实体对应的第三语义特征表示确定第三 特征表示损失; 所述第三语义特征表示是通过训练后的目标实体编 码模型对所述第三训练 实体对应的语义特 征数据进行编码得到的; 基于所述第 三特征表示损失调整所述第 三语境编码模型的模型参数并继续训练, 直至 训练完成, 获得训练后的第三目标语境编码模型; 所述第三目标语境编码模型用于针对目标知识图谱中的实体生成对应的目标语境特 征表示, 所述目标语境特 征表示用于进行实体链接处 理。 8.一种实体链接方法, 其特 征在于, 所述方法包括: 确定目标内容数据, 对所述目标内容数据进行实体词识别得到目标实体指称; 对所述目标内容数据进行编码, 得到所述目标实体指称对应的目标语境特 征表示; 基于预先建立的实体指称和目标知识图谱中实体之间的映射关系, 确定所述目标实体权 利 要 求 书 2/5 页 3 CN 115438674 A 3

PDF文档 专利 实体数据处理、实体链接方法、装置和计算机设备

文档预览
中文文档 39 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共39页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 实体数据处理、实体链接方法、装置和计算机设备 第 1 页 专利 实体数据处理、实体链接方法、装置和计算机设备 第 2 页 专利 实体数据处理、实体链接方法、装置和计算机设备 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-03-03 12:07:03上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。