(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221018420 6.9
(22)申请日 2022.02.25
(71)申请人 神州绿盟成 都科技有限公司
地址 610015 四川省成 都市中国 (四川) 自
由贸易试验区成都高新区和乐二街
150号C区5栋1层
(72)发明人 张正欣 牟黎明 王豪 肖春亮
张宏 何坤
(74)专利代理 机构 北京同达信恒知识产权代理
有限公司 1 1291
专利代理师 李海波
(51)Int.Cl.
G06K 9/62(2022.01)
G06F 40/30(2020.01)
G06F 40/177(2020.01)G06F 21/62(2013.01)
(54)发明名称
一种表数据泛化方法及装置
(57)摘要
本申请公开了一种表数据泛化方法及 装置,
用以提升表数据泛化的效率。 该方法包括: 确定
待泛化的表中多个表数据分别包括的各类型的
子数据, 其中子数据的类型包括数值型、 包含语
义的第一文本型以及不包含语义的第二文本型;
根据任一表数据包括的各类型的子数据的距离
参数, 确定其与各中心点的距离; 其中数值型子
数据与各中心点的数值型变量的相似程度为其
距离参数; 第一文本型子数据与各中心点的第一
文本型变量的相似程度为其距离参数; 第二文本
型子数据的距离参数指示其与各中心点的第二
文本型变量是否相同; 根据各表数据与各中心点
的距离, 将多个表数据划分为至少一个类别簇;
采用设定的数据泛化算法对至少一个类别簇分
别进行泛化处 理。
权利要求书2页 说明书15页 附图3页
CN 114548303 A
2022.05.27
CN 114548303 A
1.一种表数据泛化方法, 其特 征在于, 包括:
将待泛化的表拆分成多个表数据, 并确定各表数据包括的各类型的子数据, 其中子数
据的类型包括数值型、 包 含语义的第一文本型以及不包 含语义的第二文本型;
针对任意一个表数据, 根据所述表数据包括的各类型的子数据的距离参数, 确定所述
任意一个表数据与各中心点的距离, 其中数值型子数据的距离参数为数值型子数据与各中
心点包括的数值型变量的相似程度; 第一文本型子数据的距离参数为第一文本型子数据与
各中心点包括的第一文本型变量的相似程度; 第二文本型子数据的距离参数用于指示第二
文本型子数据与各中心点包括的第二文本型变量是否相同;
根据确定的各表数据与各中心点的距离, 将所述多个表数据划分为至少一个 类别簇;
针对任一类别簇, 采用设定的数据泛化 算法对所述任一类别簇进行泛化处 理。
2.如权利要求1所述的方法, 其特征在于, 在确定各表数据包括的各类型的子数据之
后, 所述方法还 包括:
将各表数据包括的第 一文本型子数据输入到预先训练好的语言模型中, 以得到所述第
一文本型子数据对应的语义向量。
3.如权利要求2所述的方法, 其特征在于, 针对任意一个表数据, 确定所述表数据包括
的各类型的子数据的距离参数, 具体包括:
将数值型子数据与 各中心点包括的数值型变量之间的欧氏距离, 作为所述数值型子数
据的距离参数;
将所述语义向量与 各中心点包括的第 一文本型变量之间的欧氏距离, 作为所述第 一文
本型子数据的距离参数;
将所述第二文本型子数据与 各中心点包括的第 二文本型变量之间的汉明距离, 作为所
述第二文本型子数据的距离参数。
4.如权利要求1 ‑3任一项所述的方法, 其特征在于, 所述针对任意一个表数据, 根据所
述表数据包括的各类型的子数据的距离参数, 确定所述任意一个表数据与各中心点的距
离, 包括:
将所述任意一个表数据包括的各类型的子数据的距离参数的加权和, 作为所述任意一
个表数据与各中心点的距离 。
5.如权利要求1 ‑3任一项所述的方法, 其特征在于, 所述针对任一类别簇, 采用设定的
数据泛化 算法对所述任一类别簇进行泛化处 理, 包括:
针对任一类别簇, 根据所述任一类别簇中各表数据所包含的准标识符, 将所述任一类
别簇划分为至少一个等价类; 其中所述等价类包括的任意两个表数据的准标识符的相似程
度小于设定阈值;
采用任一 等价类对应的泛化 值对所述任一 等价类包括的数据进行泛化处 理。
6.如权利要求5所述的方法, 其特征在于, 根据所述任一类别簇中各表数据所包含的准
标识符, 将所述任一类别簇划分为至少一个等 价类, 包括:
将所述任一类别簇划分为多个数据集合, 其中每一个数据集合包括的表数据的准标识
符相同;
判断所述多个数据集合中是否存在目标数据集合; 其中所述目标数据集合为包含表数
据的数量小于预设值的数据集 合;权 利 要 求 书 1/2 页
2
CN 114548303 A
2若所述多个数据集合中不存在所述目标数据集合, 则将每一个数据集合均作为一个等
价类;
若所述多个数据集合中存在所述目标数据集合, 则选取任意一个所述目标数据集合,
将所述任意一个目标数据集合与距离所述任意一个目标数据集合最近的数据集合组成新
的集合, 并返回判断所述多个数据集 合中是否存在所述目标 数据集合的步骤。
7.如权利要求6所述的方法, 其特 征在于, 通过 下列方式确定数据集 合之间的距离:
根据第一数据集合所包含的各表数据的敏感隐私保护度确定所述第一数据集合对应
的标准差, 以及根据第二数据集合所包含的各表数据的敏感隐私保护度确定所述第二数据
集合对应的标准差; 其中各表数据的敏感保护度用于表征表数据的重要程度; 所述第一数
据集合为所述多个数据集合中的任意一个, 所述第二数据集合为所述多个数据集合中除所
述第一数据集 合外的数据集 合中的任意 一个;
将所述第一数据集合对应的标准差和所述第 二数据集合对应的标准差的差值, 作为所
述第一数据集 合和所述第二数据集 合之间的距离 。
8.如权利要求5所述的方法, 其特征在于, 采用任一等价类对应的泛化值对所述任一等
价类包括的数据进行泛化处 理, 包括:
将所述任一等价类包括的各表数据中的准标识符替换为所述任一等价类对应的泛化
值。
9.一种表数据泛化装置, 其特 征在于, 包括:
聚类模块, 被 配置为执 行:
将待泛化的表拆分成多个表数据, 并确定各表数据包括的各类型的子数据, 其中子数
据的类型包括数值型、 包 含语义的第一文本型以及不包 含语义的第二文本型;
针对任意一个表数据, 根据所述表数据包括的各类型的子数据的距离参数, 确定所述
任意一个表数据与各中心点的距离, 其中数值型子数据的距离参数为数值型子数据与各中
心点包括的数值型变量的相似程度; 第一文本型子数据的距离参数为第一文本型子数据与
各中心点包括的第一文本型变量的相似程度; 第二文本型子数据的距离参数用于指示第二
文本型子数据与各中心点包括的第二文本型变量是否相同;
根据确定的各表数据与各中心点的距离, 将所述多个表数据划分为至少一个 类别簇;
泛化模块, 用于针对任一类别簇, 采用设定的数据泛化算法对所述任一类别簇进行泛
化处理。
10.一种电子设备, 其特 征在于, 所述电子设备包括控制器和存 储器,
所述存储器, 用于存 储计算机程序或指令;
所述控制器, 用于执行存储器 中的计算机程序或指令, 使得权利要求1 ‑8中任一项所述
的方法被执 行。权 利 要 求 书 2/2 页
3
CN 114548303 A
3
专利 一种表数据泛化方法及装置
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:47:26上传分享