(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111510280.7
(22)申请日 2021.12.10
(71)申请人 中南大学
地址 410000 湖南省长 沙市岳麓区麓山 南
路932号
(72)发明人 奎晓燕 吴庆捷 陈志刚
(74)专利代理 机构 长沙轩荣专利代理有限公司
43235
代理人 丛诗洋
(51)Int.Cl.
G06F 16/906(2019.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
基于机器学习的冷热数据分离方法、 系统、
设备及介质
(57)摘要
本公开实施例中提供了一种基于机器学习
的冷热数据分离方法、 系统、 设备及介质, 属于数
据识别技术领域, 具体包括: 获取训练集; 对训练
集进行预处理操作; 利用高斯混合模 型的最大期
望混合聚类方法进行聚类, 得到第一分类结果;
利用K近邻分类算法进行分类, 得到第二分类结
果; 判断第一分类结果与第二分类结果是否相
同; 若是, 则判定待分类请求的类型与第一分类
结果相同; 若否, 则采用最近邻原则对第一分类
结果和第二 分类结果进行修正, 以及更新热数据
集。 通过本公开的方案, 以已知标签的请求作为
参考, 利用多种机器算法从多个维度对待分类请
求进行分类识别, 然后根据 识别结果进行进一步
分析, 确定待分类请求的数据类型。
权利要求书2页 说明书8页 附图3页
CN 114168824 A
2022.03.11
CN 114168824 A
1.一种基于 机器学习的冷热 数据分离方法, 其特 征在于, 包括:
获取已分类的历史数据请求作为训练集;
对所述训练集进行 预处理操作, 得到热 数据集和冷数据集;
根据待分类请求的数据量, 利用高斯混合模型的最大期望混合聚类方法进行聚类, 得
到第一分类结果, 其中, 所述第一分类结果 为所述热 数据集和所述冷数据集的任一种;
根据所述待分类请求的逻辑地址, 利用K近邻分类算法进行分类, 得到第二分类结果,
其中, 所述第二分类结果 为所述热 数据集和所述冷数据集的任一种;
判断所述第一分类结果与所述第二分类结果是否相同;
若是, 则判定所述待分类请求的类型与所述第一分类结果相同;
若否, 则采用最近邻原则对所述第 一分类结果和所述第 二分类结果进行修正, 以及, 根
据修正结果将所述待分类请求的数据分别至不同数据类型对应的存储节点上并更新所述
热数据集。
2.根据权利要求1所述的方法, 其特征在于,所述对所述训练集进行预处理操作, 得到
热数据集和冷数据集的步骤, 包括:
利用预设的数据剪辑方法筛除所述历史数据请求中的错误分类样本, 以及, 利用预设
的数据压缩方法剔除所述历史数据请求中每个类的预设数量的数据量, 得到所述热数据集
和所述冷数据集。
3.根据权利要求1所述的方法, 其特征在于,所述根据待分类请求的数据量, 利用高斯
混合模型的最大期望混合聚类方法进行聚类, 得到第一分类结果的步骤, 包括:
将所述热 数据集和所述冷数据集随机初始化得到对应的聚类中心和高斯分布参数;
根据所述热数据集和所述冷数据集的高斯分布参数计算所述待分类请求中每个数据
点属于不同所述聚类中心的概 率;
根据所述 概率更新所述高斯分布参数;
迭代计算每 个所述数据点对应的数据集的概 率, 形成所述第一分类结果。
4.根据权利要求1所述的方法, 其特征在于,所述根据所述待分类请求的逻辑地址, 利
用K近邻分类算法进行分类, 得到第二分类结果的步骤, 包括:
初始化K值;
计算所述逻辑逻辑地址与所述热数据集和所述冷数据集中每个样本之间的欧式距离
值;
对全部所述欧氏距离值进行排序, 并选出 K个最近邻样本;
将全部所述 最近邻样本中出现频率 最高的数据集类别作为所述第二分类结果。
5.根据权利要求4所述的方法, 其特征在于,所述逻辑地址包括所述待分类请求的逻辑
节点号和块号。
6.一种分布式存储系统, 其特征在于, 所述分布式存储系统使用权利要求1至5中任一
项所述的基于 机器学习的冷热 数据分离方法对数据存 储请求进行识别分类。
7.一种电子设备, 其特 征在于, 所述电子设备包括:
至少一个处 理器; 以及,
与所述至少一个处 理器通信连接的存 储器; 其中,
所述存储器存储有可被所述至少一个处理器执行的指令, 所述指令被所述至少一个处权 利 要 求 书 1/2 页
2
CN 114168824 A
2理器执行, 以使所述至少一个处理器能够执行前述权利要求1 ‑5中任一项所述的基于机器
学习的冷热 数据分离方法。
8.一种非暂态计算机可读存储介质, 该非暂态计算机可读存储介质存储计算机指令,
该计算机指令用于使 该计算机执行前述权利要求 1‑5中任一项 所述的基于机器学习的冷热
数据分离方法。权 利 要 求 书 2/2 页
3
CN 114168824 A
3
专利 基于机器学习的冷热数据分离方法、系统、设备及介质
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:21:42上传分享