专利 一种数据处理方法和相关装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111516620.7 (22)申请日 2021.12.10 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人刘志煌　 (74)专利代理机构深圳市深佳知识产权代理事务所(普通合伙) 44285 代理人罗晓敏 (51)Int.Cl. G06F 16/387(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称一种数据处理方法和相关装置 (57)摘要本申请实施例公开了一种数据处理方法和相关装置，针对需要进数据归因的目标产品，获取与其相关的历史产品数据，根据历史产品数据中的数据指标和对应的数据维度特征，确定数据指标和数据维度特征在多个时间窗的数值变化情况，并基于数值变化情况得到以时间窗为粒度的指标维度升降序列，由于该指标维度升降序列能够体现出在时间变化下，数据指标与数据维度特征间关联关系的变化情况，故此训练得到的数据归因识别模型能够基于目标产品数据，识别出不同时间窗下针对待识别数据指标的数据归因结果，通过数据归因识别模型可以在时间维度上提供更为动态的数据归因结果，基于数据归因结果进行与数据指标关联的数据维度特征的抽取更加灵活。权利要求书3页说明书21页附图7页 CN 114328985 A 2022.04.12 CN 114328985 A 1.一种数据处理方法，其特征在于，所述方法包括：获取与目标产品相关的历史产品数据；确定所述历史产品数据对应的数据指标，以及所述历史产品数据中对应所述数据指标的数据维度特征；根据所述数据指标和所对应数据维度特征在连续的多个时间窗的数值变化情况，确定所述数据指标分别对应所述多个时间窗的指标维度升降序列，针对所述多个时间窗的第i 个时间窗，所对应的指标维度升降序列用于标识相较于第i ‑1个时间窗，在第i个时间窗内所述数据指标和所对应数据维度特征的升降信息；根据所述指标维度升降序列和基于所述历史产品数据确定的所述数据指标的实际数据归因标签，训练得到数据归因识别模型；获取所述目标产品的目标产品数据，所述目标产品数据是根据待识别数据指标确定的；通过所述数据归因识别模型，根据所述目标产品数据确定所述待识别数据指标对应的数据归因结果。 2.根据权利要求1所述的方法，其特征在于，所述根据所述指标维度升降序列和基于所述历史产品数据确定的所述数据指标的实际数据归因标签，训练得到数据归因识别模型，包括：基于考察时长将所述多个时间窗分为多个考察周期，所述考察周期内包括 N个时间窗；根据至少两个所述考察周期中第k个时间窗分别对应的指标维度升降序列，根据最小支持度阈值确定所述数据指标在第k个时间窗中的最长前缀序列，其中，所述最长前缀序列中包括的数据维度特征在至少两个所述考察周期中出现相同升降信息的次数满足所述最小支持度阈值， k∈N；根据所述最长前缀序列，基于所述实际数据归因标签训练得到数据归因识别模型。 3.根据权利要求2所述的方法，其特征在于，所述方法还包括：通过所述数据指标在所述考察周期中分别对应的最长前缀序列，基于多头注意力模型确定所述数据指标在所述 N个时间窗间的维度特征相关度；所述根据所述最长前缀序列，基于所述实际数据归因标签训练得到数据归因识别模型，包括：根据所述维度特征相关度和所述最长前缀序列，基于所述实际数据归因标签训练得到数据归因识别模型。 4.根据权利要求1所述的方法，其特征在于，所述方法还包括：确定对应所述数据指标的数据维度特征的特征类型，所述特征类型包括特征数值随时间变化的时序性类型，以及非时序性类型；若确定所述数据维度特征中包括时序性类型的数据维度特征，针对所述时序性类型的数据维度特征，执行所述根据所述数据指标和所对应数据维度特征在连续的多个时间窗的数值变化情况，确定所述数据指标分别对应所述多个时间窗的指标维度升降序列的步骤。 5.根据权利要求 4所述的方法，其特征在于，所述方法还包括：若确定所述数据维度特征中包括非时序性类型的目标维度特征，根据所述目标维度特征间在数据维度上的父子关系，生成所述数据指标与所述目标维度特征间的层级拓扑网权　利　要　求　书 1/3 页 2 CN 114328985 A 2络，所述层级拓扑网络中的维度节点用于标识所述目标维度特征；根据所述维度节点的杰森香农JS散度和维度贡献度，将所述JS散度和所述维度贡献度分别满足预置条件的维度节点确定为候选节点；其中，所述JS散度用于标识所述维度节点与父节点间的概率分布关联性，所述维度贡献度用于标识所述维度节点的子节点对所述维度节点的贡献程度；根据所述候选节点在所述层级拓扑网络中基于父子关系，确定与所述数据指标构成的指标维度链路，所述指标维度链路用于标识与所述数据指标具有数据归因关系的数据维度特征。 6.根据权利要求5所述的方法，其特征在于，所述层级拓扑网络包括多个层级，处于同一个层级的维度节点到所述数据指标所对应更节点的路径步数相同，针对所述多个层级中的第j个层级和第j+1个层级，所述根据所述维度节点的杰森香农JS散度和维度贡献度，将所述JS散度和所述维度贡献度分别满足预置条件的维度节点确定为候选节点，包括：分别确定处于所述第j个层级的维度节点所对应JS散度和维度贡献度；根据所述预置条件确定所述第j个层级的候选节点；基于所述第j个层级的候选节点在第j +1个层级中的子节点，根据所述预置条件确定第 j+1个层级中的候选节点。 7.根据权利要求5所述的方法，其特征在于，在所述获取所述目标产品的目标产品数据之后，所述方法还包括：确定所述目标产品数据中属于非时序性类型的第一待识别数据维度特征；根据所述指标维度链路，确定所述第一待识别数据维度特征中与所述待识别数据指标对应的第一数据归因结果。 8.根据权利要求7所述的方法，其特征在于，所述通过所述数据归因识别模型，根据所述目标产品数据确定所述待识别数据指标对应的数据归因结果，包括：确定所述目标产品数据中属于时序性类型的第二待识别数据维度特征；通过所述数据归因识别模型，根据所述第二待识别数据维度特征确定所述待识别数据指标对应的第二数据归因结果；所述方法还包括：根据所述第一数据归因结果和所述第二数据归因结果确定针对所述待识别数据指标的数据归因结果集合。 9.一种数据处理装置，其特征在于，所述装置包括获取单元、确定单元和识别单元：所述获取单元，用于获取与目标产品相关的历史产品数据；所述确定单元，用于确定所述历史产品数据对应的数据指标，以及所述历史产品数据中对应所述数据指标的数据维度特征；所述确定单元还用于根据所述数据指标和所对应数据维度特征在连续的多个时间窗的数值变化情况，确定所述数据指标分别对应所述多个时间窗的指标维度升降序列，针对所述多个时间窗的第i个时间窗，所对应的指标维度升降序列用于标识相较于第i ‑1个时间窗，在第i个时间窗内所述数据指标和所对应数据维度特征的升降信息；所述确定单元还用于根据所述指标维度升降序列和基于所述历史产品数据确定的所述数据指标的实际数据归因标签，训练得到数据归因识别模型；权　利　要　求　书 2/3 页 3 CN 114328985 A 3

专利 一种数据处理方法和相关装置

专利一种数据处理方法和相关装置