(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210483147.5
(22)申请日 2022.04.29
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 王硕 鞠美芝 张云燕
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 杜维
(51)Int.Cl.
G06K 9/62(2022.01)
G16H 50/20(2018.01)
G16H 40/20(2018.01)
G16H 10/60(2018.01)
G06F 40/30(2020.01)
(54)发明名称
数据处理方法、 电子设备、 程序 产品及介质
(57)摘要
本申请实施例公开了数据处理方法、 电子设
备、 程序产品及介质, 可应用于数据处理技术领
域。 其中方法包括: 获取样 本数据集; 调用预测模
型生成每个文本数据的文本特征及每个图像数
据的图像特征; 分别生成多个第一特征对中每个
第一特征对的第一特征差异; 分别生成多个第二
特征对中每个第二特征对的第二特征差异; 基于
每个第一特征对对应的第一特征差异和每个第
二特征对对应的第二特征差异修正预测模型的
模型参数, 得到训练好的预测模型。 采用本申请
实施例, 有助于提升对文本数据所指示的事件的
预测的准确度。 本申请实施例还可应用于云技
术、 人工智能、 智慧 交通、 辅助驾驶 等各种场景。
权利要求书3页 说明书27页 附图9页
CN 115130545 A
2022.09.30
CN 115130545 A
1.一种数据处 理方法, 其特 征在于, 所述方法包括:
获取样本数据集; 所述样本数据集中样本数据包含N个文本数据和M个 图像数据, 任一
个文本数据和任一个图像数据均具有事 件标签, N和M为 正整数;
调用预测模型生成每 个文本数据的文本特 征及每个图像数据的图像特 征;
分别生成多个第一特征对中每个第一特征对所包含文本特征和图像特征之间的第一
特征差异; 任一第一特征对包含的文本特征所属文本数据与包含的图像特征所属图像数据
具有相同的事 件标签;
分别生成多个第二特征对中每个第二特征对所包含文本特征和图像特征之间的第二
特征差异; 任一第二特征对包含的文本特征所属文本数据与包含的图像特征所属图像数据
具有不同的事 件标签;
基于所述每个第一特征对对应的第一特征差异和所述每个第二特征对对应的第二特
征差异修正所述预测模型 的模型参数, 得到训练好的预测模型; 所述训练好的预测模型用
于根据输入的文本数据预测该文本数据所指示的事 件。
2.根据权利要求1所述方法, 其特征在于, 所述基于所述每个第 一特征对对应的第 一特
征差异和所述每个第二特征对对应的第二特征差异 修正所述预测模型的模 型参数, 得到训
练好的预测模型, 包括:
对所述多个第 一特征对和所述多个第 二特征对进行组合, 得到第 一组合特征对和第 二
组合特征对; 所述第一组合特征对中的第一特征对和第二特征对包含相同的文本特征, 所
述第二组合特 征对中的第一特 征对和第二特 征对包含相同的图像特 征;
根据所述第一组合特征对中第一特征对对应的第一特征差异及第二特征对对应的第
二特征差异, 生成所述预测模型针对样本特 征的第一预测损失值;
根据所述第二组合特征对中第一特征对对应的第一特征差异及第二特征对对应的第
二特征差异, 生成所述预测模型针对所述样本特 征的第二预测损失值;
根据所述第一预测损失值和所述第二预测损失值确定所述预测模型的第一特征预测
偏差, 并根据所述第一特征预测偏差修正所述预测模型 的模型参数, 得到训练好的预测模
型。
3.根据权利要求2所述方法, 其特征在于, 所述根据 所述第一组合特征对中第 一特征对
对应的第一特征差异及第二特征对对应的第二特征差异, 生成所述预测模 型针对样本特征
的第一预测损失值, 包括:
将所述第一组合特征对中第 二特征对包含的文本特征确定为第 一文本特征, 并将所述
第一组合特 征对中第二特 征对包含的图像特 征确定为第一图像特 征;
调用所述预测模型基于所述第 一图像特征, 生成所述第 一文本特征所属文本数据的事
件标签的第一标签权重, 并生成所述第一图像特征所属图像数据的事件标签的第二标签权
重;
根据所述第一标签权重和所述第二标签权重生成所述第一组合特征对对应的第二特
征差异的第一差异权 重;
根据所述第 一差异权重、 所述第 一组合特征对中第 一特征对对应的第 一特征差异和所
述第一组合特 征对中第二特 征对对应的第二特 征差异, 生成第一预测损失值。
4.根据权利要求2所述方法, 其特征在于, 所述根据 所述第二组合特征对中第 一特征对权 利 要 求 书 1/3 页
2
CN 115130545 A
2对应的第一特征差异及第二特征对对应的第二特征差异, 生成所述预测模 型针对样本特征
的第二预测损失值, 包括:
将所述第二组合特征对中第 二特征对包含的文本特征确定为第 二文本特征, 并将所述
第一组合特 征对中第二特 征对包含的图像特 征确定为第二图像特 征;
调用所述预测模型基于所述第 二图像特征, 生成所述第 二文本特征所属文本数据的事
件标签的第三标签权重, 并生成所述第二图像特征所属图像数据的事件标签的第四标签权
重;
根据所述第三标签权重和所述第四标签权重生成所述第二组合特征对对应的第二特
征差异的第二差异权 重;
根据所述第 二差异权重、 所述第 二组合特征对中第 一特征对对应的第 一特征差异和所
述第二组合特 征对中第二特 征对对应的第二特 征差异, 生成第二预测损失值。
5.根据权利要求1所述方法, 其特征在于, 所述样本数据集中样本数据的事件标签基于
事件集进行标注, 所述事件集包含多个事件; 所述N个文本数据均携带关联信息标签; 所述
预测模型包含信息提取器; 所述基于所述每个第一特征对对应的第一特征差异和所述每个
第二特征对对应的第二特征差异修正所述预测模型 的模型参数, 得到训练好的预测模型,
包括:
基于所述每个第一特征对对应的第一特征差异和所述每个第二特征对对应的第二特
征差异生成所述预测模型的第一特 征预测偏差;
调用所述信息提取器生成所述事 件集中每 个事件的事件特征;
基于所述每个事件的事件特征和所述每个图像数据的图像特征, 生成所述信 息提取器
的第二特 征预测偏差;
调用所述预测模型分别预测所述N个文本数据所指示的事件, 并调用所述信息提取器
从所述N个文本数据中, 分别提取 所预测的所述 N个文本数据所指示事 件的预测关联信息;
基于所述N个文本数据的关联信 息标签及预测关联信 息生成所述信 息提取器的信 息提
取偏差;
基于所述第一特征预测偏差、 所述第二特征预测偏差、 所述信息提取偏差修正所述预
测模型的模型参数, 得到训练好的预测模型; 所述训练好的预测模型中的信息提取器用于
提取输入的文本数据所指示事 件的关联信息 。
6.根据权利要求5所述方法, 其特征在于, 所述基于所述每个事件的事件特征和所述每
个图像数据的图像特 征, 生成所述信息提取器的第二特 征预测偏差, 包括:
调用所述信息提取器生成多个第三特征对中每个第三特征对所包含事件特征和图像
特征之间的第三特征差异; 任一第三特征对包含的事件特征所属事件与包含的图像特征对
应的事件标签所指示事 件相同;
调用所述信息提取器生成多个第四特征对中每个第四特征对所包含事件特征和图像
特征之间的第四特征差异; 任一第四特征对包含的事件特征所属事件与包含的图像特征对
应的事件标签所指示事 件不同;
调用所述信息提取器基于所述每个第三特征对对应的第三特征差异和所述每个第四
特征对对应的第四特 征差异, 生成针对所述信息提取器的所述第二特 征预测偏差 。
7.根据权利要求1所述方法, 其特 征在于, 所述方法还 包括:权 利 要 求 书 2/3 页
3
CN 115130545 A
3
专利 数据处理方法、电子设备、程序产品及介质
文档预览
中文文档
40 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共40页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:50:46上传分享