(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111516620.7
(22)申请日 2021.12.10
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 刘志煌
(74)专利代理 机构 深圳市深佳知识产权代理事
务所(普通 合伙) 44285
代理人 罗晓敏
(51)Int.Cl.
G06F 16/387(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 20/00(2019.01)
(54)发明名称
一种数据处 理方法和相关装置
(57)摘要
本申请实施例公开了一种数据处理方法和
相关装置, 针对需要进数据归因的目标产品, 获
取与其相关的历史产品数据, 根据历史产品数据
中的数据指标和对应的数据维度特征, 确定数据
指标和数据维度特征在多个时间窗的数值变化
情况, 并基于数值变化情况得到以时间窗为粒度
的指标维度升降序列, 由于该指标 维度升降序列
能够体现出在时间变化下, 数据指标与数据维度
特征间关联关系的变化情况, 故此训练得到的数
据归因识别模 型能够基于目标产品数据, 识别出
不同时间窗下针对待识别数据指标的数据归因
结果, 通过数据归因识别模型可以在时间维度上
提供更为动态的数据归因结果, 基于数据归因结
果进行与数据指标关联的数据维度特征的抽取
更加灵活。
权利要求书3页 说明书21页 附图7页
CN 114328985 A
2022.04.12
CN 114328985 A
1.一种数据处 理方法, 其特 征在于, 所述方法包括:
获取与目标产品相关的历史产品数据;
确定所述历史产品数据对应的数据指标, 以及所述历史产品数据中对应所述数据指标
的数据维度特 征;
根据所述数据指标和所对应数据维度 特征在连续的多个时间窗的数值变化情况, 确定
所述数据指标分别对应所述多个时间窗的指标维度升降序列, 针对所述多个时间窗的第i
个时间窗, 所对应的指标维度升降序列用于标识相较于第i ‑1个时间窗, 在第i个时间窗内
所述数据指标和所对应数据维度特 征的升降信息;
根据所述指标维度升降序列和基于所述历史产品数据确定的所述数据指标的实际数
据归因标签, 训练得到数据归因识别模型;
获取所述目标产品的目标产品数据, 所述目标产品数据是根据待识别数据指标确定
的;
通过所述数据归因识别模型, 根据 所述目标产品数据确定所述待识别数据指标对应的
数据归因结果。
2.根据权利要求1所述的方法, 其特征在于, 所述根据所述指标维度升降序列和基于所
述历史产品数据确定的所述数据指标的实际数据归因标签, 训练得到数据归因识别模型,
包括:
基于考察时长将所述多个时间窗分为多个考 察周期, 所述 考察周期内包括 N个时间窗;
根据至少两个所述考察周期中第k个时间窗分别对应的指标维度升降序列, 根据最小
支持度阈值确定所述数据指标在第k个时间窗中的最长前缀序列, 其中, 所述最长前缀序列
中包括的数据维度特征在至少两个所述考察周期中出现相同升降信息的次数满足所述最
小支持度阈值, k∈N;
根据所述 最长前缀序列, 基于所述实际数据归因标签训练得到数据归因识别模型。
3.根据权利要求2所述的方法, 其特 征在于, 所述方法还 包括:
通过所述数据指标在所述考察周期中分别对应的最长前缀序列, 基于多头注意力模型
确定所述数据指标在所述 N个时间窗间的维度特 征相关度;
所述根据所述最长前缀序列, 基于所述实际数据归因标签训练得到数据归因识别模
型, 包括:
根据所述维度 特征相关度和所述最长前缀序列, 基于所述实际数据归因标签训练得到
数据归因识别模型。
4.根据权利要求1所述的方法, 其特 征在于, 所述方法还 包括:
确定对应所述数据指标的数据维度 特征的特征类型, 所述特征类型包括特征数值随时
间变化的时序性类型, 以及非时序性类型;
若确定所述数据维度 特征中包括 时序性类型的数据维度 特征, 针对所述 时序性类型的
数据维度特征, 执行所述根据所述数据指标和所对应数据维度特征在连续的多个时间窗的
数值变化情况, 确定所述数据指标分别对应所述多个时间窗的指标维度升降序列的步骤。
5.根据权利要求 4所述的方法, 其特 征在于, 所述方法还 包括:
若确定所述数据维度 特征中包括非时序性类型的目标维度 特征, 根据 所述目标维度 特
征间在数据维度上的父子关系, 生成所述数据指标与所述目标维度特征间的层级拓扑网权 利 要 求 书 1/3 页
2
CN 114328985 A
2络, 所述层级拓扑网络中的维度节点用于标识所述目标维度特 征;
根据所述维度节点的杰森香农JS散度和维度贡献度, 将所述JS散度和所述维度贡献度
分别满足预置条件的维度节点确定为候选节点; 其中, 所述JS散度用于标识所述维度节点
与父节点间的概率分布关联性, 所述 维度贡献度用于标识所述维度节点的子节点对所述 维
度节点的贡献程度;
根据所述候选节点在所述层级拓扑网络 中基于父子关系, 确定与所述数据指标构 成的
指标维度 链路, 所述指标维度 链路用于标识与所述数据指标具有 数据归因关系的数据维度
特征。
6.根据权利要求5所述的方法, 其特征在于, 所述层级拓扑网络包括多个层级, 处于同
一个层级的维度 节点到所述数据指标所对应更节 点的路径步数相同, 针对 所述多个层级中
的第j个层级和第j+1个层级, 所述根据所述维度节点的杰森香农JS散度和维度贡献度, 将
所述JS散度和所述维度贡献度分别满足预置条件的维度节点确定为 候选节点, 包括:
分别确定处于所述第j个层级的维度节点所对应JS散度和维度贡献度;
根据所述预置条件确定所述第j个层级的候选节点;
基于所述第j个层级的候选节点在第j +1个层级中的子节点, 根据所述预置条件确定第
j+1个层级中的候选节点。
7.根据权利要求5所述的方法, 其特征在于, 在所述获取所述目标产品的目标产品数据
之后, 所述方法还 包括:
确定所述目标产品数据中属于非时序性类型的第一待识别数据维度特 征;
根据所述指标维度链路, 确定所述第 一待识别数据维度 特征中与所述待识别数据指标
对应的第一数据归因结果。
8.根据权利要求7所述的方法, 其特征在于, 所述通过所述数据归因识别模型, 根据所
述目标产品数据确定所述待识别数据指标对应的数据归因结果, 包括:
确定所述目标产品数据中属于时序性类型的第二待识别数据维度特 征;
通过所述数据归因识别模型, 根据 所述第二待识别数据维度特征确定所述待识别数据
指标对应的第二数据归因结果;
所述方法还 包括:
根据所述第一数据归因结果和所述第二数据归因结果确定针对所述待识别数据指标
的数据归因结果 集合。
9.一种数据处 理装置, 其特 征在于, 所述装置包括获取 单元、 确定单 元和识别单 元:
所述获取 单元, 用于获取与目标产品相关的历史产品数据;
所述确定单元, 用于确定所述历史产品数据对应的数据指标, 以及所述历史产品数据
中对应所述数据指标的数据维度特 征;
所述确定单元还用于根据所述数据指标和所对应数据维度特征在连续的多个时间窗
的数值变化情况, 确定所述数据指标分别对应所述多个时间窗的指标维度升降序列, 针对
所述多个时间窗的第i个时间窗, 所对应的指标维度升降序列用于标识相较于第i ‑1个时间
窗, 在第i个时间窗内所述数据指标和所对应数据维度特 征的升降信息;
所述确定单元还用于根据所述指标维度升降序列和基于所述历史产品数据确定的所
述数据指标的实际数据归因标签, 训练得到数据归因识别模型;权 利 要 求 书 2/3 页
3
CN 114328985 A
3
专利 一种数据处理方法和相关装置
文档预览
中文文档
32 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:20:10上传分享