专利 一种表数据泛化方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221018420 6.9 (22)申请日 2022.02.25 (71)申请人神州绿盟成都科技有限公司地址 610015 四川省成都市中国（四川）自由贸易试验区成都高新区和乐二街 150号C区5栋1层 (72)发明人张正欣　牟黎明　王豪　肖春亮　张宏　何坤　 (74)专利代理机构北京同达信恒知识产权代理有限公司 1 1291 专利代理师李海波 (51)Int.Cl. G06K 9/62(2022.01) G06F 40/30(2020.01) G06F 40/177(2020.01)G06F 21/62(2013.01) (54)发明名称一种表数据泛化方法及装置 (57)摘要本申请公开了一种表数据泛化方法及装置，用以提升表数据泛化的效率。该方法包括：确定待泛化的表中多个表数据分别包括的各类型的子数据，其中子数据的类型包括数值型、包含语义的第一文本型以及不包含语义的第二文本型；根据任一表数据包括的各类型的子数据的距离参数，确定其与各中心点的距离；其中数值型子数据与各中心点的数值型变量的相似程度为其距离参数；第一文本型子数据与各中心点的第一文本型变量的相似程度为其距离参数；第二文本型子数据的距离参数指示其与各中心点的第二文本型变量是否相同；根据各表数据与各中心点的距离，将多个表数据划分为至少一个类别簇；采用设定的数据泛化算法对至少一个类别簇分别进行泛化处理。权利要求书2页说明书15页附图3页 CN 114548303 A 2022.05.27 CN 114548303 A 1.一种表数据泛化方法，其特征在于，包括：将待泛化的表拆分成多个表数据，并确定各表数据包括的各类型的子数据，其中子数据的类型包括数值型、包含语义的第一文本型以及不包含语义的第二文本型；针对任意一个表数据，根据所述表数据包括的各类型的子数据的距离参数，确定所述任意一个表数据与各中心点的距离，其中数值型子数据的距离参数为数值型子数据与各中心点包括的数值型变量的相似程度；第一文本型子数据的距离参数为第一文本型子数据与各中心点包括的第一文本型变量的相似程度；第二文本型子数据的距离参数用于指示第二文本型子数据与各中心点包括的第二文本型变量是否相同；根据确定的各表数据与各中心点的距离，将所述多个表数据划分为至少一个类别簇；针对任一类别簇，采用设定的数据泛化算法对所述任一类别簇进行泛化处理。 2.如权利要求1所述的方法，其特征在于，在确定各表数据包括的各类型的子数据之后，所述方法还包括：将各表数据包括的第一文本型子数据输入到预先训练好的语言模型中，以得到所述第一文本型子数据对应的语义向量。 3.如权利要求2所述的方法，其特征在于，针对任意一个表数据，确定所述表数据包括的各类型的子数据的距离参数，具体包括：将数值型子数据与各中心点包括的数值型变量之间的欧氏距离，作为所述数值型子数据的距离参数；将所述语义向量与各中心点包括的第一文本型变量之间的欧氏距离，作为所述第一文本型子数据的距离参数；将所述第二文本型子数据与各中心点包括的第二文本型变量之间的汉明距离，作为所述第二文本型子数据的距离参数。 4.如权利要求1 ‑3任一项所述的方法，其特征在于，所述针对任意一个表数据，根据所述表数据包括的各类型的子数据的距离参数，确定所述任意一个表数据与各中心点的距离，包括：将所述任意一个表数据包括的各类型的子数据的距离参数的加权和，作为所述任意一个表数据与各中心点的距离。 5.如权利要求1 ‑3任一项所述的方法，其特征在于，所述针对任一类别簇，采用设定的数据泛化算法对所述任一类别簇进行泛化处理，包括：针对任一类别簇，根据所述任一类别簇中各表数据所包含的准标识符，将所述任一类别簇划分为至少一个等价类；其中所述等价类包括的任意两个表数据的准标识符的相似程度小于设定阈值；采用任一等价类对应的泛化值对所述任一等价类包括的数据进行泛化处理。 6.如权利要求5所述的方法，其特征在于，根据所述任一类别簇中各表数据所包含的准标识符，将所述任一类别簇划分为至少一个等价类，包括：将所述任一类别簇划分为多个数据集合，其中每一个数据集合包括的表数据的准标识符相同；判断所述多个数据集合中是否存在目标数据集合；其中所述目标数据集合为包含表数据的数量小于预设值的数据集合；权　利　要　求　书 1/2 页 2 CN 114548303 A 2若所述多个数据集合中不存在所述目标数据集合，则将每一个数据集合均作为一个等价类；若所述多个数据集合中存在所述目标数据集合，则选取任意一个所述目标数据集合，将所述任意一个目标数据集合与距离所述任意一个目标数据集合最近的数据集合组成新的集合，并返回判断所述多个数据集合中是否存在所述目标数据集合的步骤。 7.如权利要求6所述的方法，其特征在于，通过下列方式确定数据集合之间的距离：根据第一数据集合所包含的各表数据的敏感隐私保护度确定所述第一数据集合对应的标准差，以及根据第二数据集合所包含的各表数据的敏感隐私保护度确定所述第二数据集合对应的标准差；其中各表数据的敏感保护度用于表征表数据的重要程度；所述第一数据集合为所述多个数据集合中的任意一个，所述第二数据集合为所述多个数据集合中除所述第一数据集合外的数据集合中的任意一个；将所述第一数据集合对应的标准差和所述第二数据集合对应的标准差的差值，作为所述第一数据集合和所述第二数据集合之间的距离。 8.如权利要求5所述的方法，其特征在于，采用任一等价类对应的泛化值对所述任一等价类包括的数据进行泛化处理，包括：将所述任一等价类包括的各表数据中的准标识符替换为所述任一等价类对应的泛化值。 9.一种表数据泛化装置，其特征在于，包括：聚类模块，被配置为执行：将待泛化的表拆分成多个表数据，并确定各表数据包括的各类型的子数据，其中子数据的类型包括数值型、包含语义的第一文本型以及不包含语义的第二文本型；针对任意一个表数据，根据所述表数据包括的各类型的子数据的距离参数，确定所述任意一个表数据与各中心点的距离，其中数值型子数据的距离参数为数值型子数据与各中心点包括的数值型变量的相似程度；第一文本型子数据的距离参数为第一文本型子数据与各中心点包括的第一文本型变量的相似程度；第二文本型子数据的距离参数用于指示第二文本型子数据与各中心点包括的第二文本型变量是否相同；根据确定的各表数据与各中心点的距离，将所述多个表数据划分为至少一个类别簇；泛化模块，用于针对任一类别簇，采用设定的数据泛化算法对所述任一类别簇进行泛化处理。 10.一种电子设备，其特征在于，所述电子设备包括控制器和存储器，所述存储器，用于存储计算机程序或指令；所述控制器，用于执行存储器中的计算机程序或指令，使得权利要求1 ‑8中任一项所述的方法被执行。权　利　要　求　书 2/2 页 3 CN 114548303 A 3

专利 一种表数据泛化方法及装置

专利一种表数据泛化方法及装置