(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211130635.4
(22)申请日 2022.09.16
(71)申请人 广东天舜信息科技有限公司
地址 510700 广东省广州市黄埔区科 学城
瑞和路79号瑞博奥大楼1期3楼312、
313房
(72)发明人 刘利红
(74)专利代理 机构 广东省中源正拓专利代理事
务所(普通 合伙) 44748
专利代理师 党冲
(51)Int.Cl.
G06F 16/2458(2019.01)
G06F 16/28(2019.01)
G06K 9/62(2022.01)
(54)发明名称
一种适用 于大数据挖掘的混合聚类方法及
系统
(57)摘要
本发明公开了一种适用于大数据挖掘的混
合聚类方法及系统, 涉及大数据技术领域。 使用
K‑means++算法对原始数据集进行第一次聚类操
作, 将原始数据分组为多个第一数据集; 针对每
一第一数据集, 使用预设的改进DBSCAN算法对该
第一数据集进行第二次聚类操作, 得到数据簇;
将各第一数据集的数据簇进行合并, 得到所述原
始数据集的聚类结果。 采用K ‑means++与改进
DBSCAN的混合算法, 通过将原始数据集进行分 组
降低原始数据集的计算数据量, 在组 内样本数据
点可以根据各邻居数据点的本地数据只计算第
二数据集降低组 内数据集的计算数据量, 降低了
算法的时间复杂度, 提高执行聚类操作的速度,
进而提高大 数据挖掘的效率。
权利要求书3页 说明书8页 附图3页
CN 115408447 A
2022.11.29
CN 115408447 A
1.一种适用于大 数据挖掘的混合聚类方法, 其特 征在于, 所述方法包括以下步骤:
S1: 从数据库获取待处 理的原始数据集;
S2: 使用K ‑means++算法对所述原始数据 集进行第一次聚类操作, 将所述原始数据分组
为多个第一数据集;
S3: 针对每一第一数据集, 使用预设的改进DBSCAN算法对该第一数据集进行第二次聚
类操作, 得到数据簇; 所述改进DBSCAN算法在确 定聚类簇时, 针对每一样本数据点, 根据该
样本数据点各邻居数据点的本地数据确定该样本数据点的第二数据集, 根据第二数据集确
定该样本数据点是否为核心数据点; 第二数据集 为该第一数据集的子集;
S4: 将各第一数据集的数据簇进行合并, 得到所述原 始数据集的聚类结果。
2.根据权利要求1所述的一种适用于大数据挖掘的混合聚类方法, 其特征在于, 步骤S3
包括以下步骤:
S31: 针对每一第一数据集, 从该第一数据集中随机选择一个初始数据点, 计算该点到
该第一数据集中其 他数据点的距离, 作为初始数据点的第一本地数据;
S32: 根据第 一本地数据和预设聚类参数确定所述初始数据点是否为核心数据点, 并确
定所述初始数据点密度直达的第三数据集;
S33: 针对第 三数据集中的每一密度直达数据点, 根据本地数据和预设聚类参数确定该
密度直达数据点的第二数据集;
S34: 根据第 二数据集判断该密度直达数据点是否为核心数据点, 并确定所述初始数据
点密度相连的第四数据集;
S35: 重复上述步骤S33 ‑S34, 直到确定出与所述初始数据点密度相连的数据点中的所
有核心数据点;
S36: 重复上述 步骤S31‑S35, 直到确定出 该第一数据集中所有数据簇 。
3.根据权利要求2所述的一种适用于大数据挖掘的混合聚类方法, 其特征在于, 步骤
S34包括以下步骤:
计算该密度直达数据点到第 二数据集中其他数据点的距离, 作为该密度直达数据点的
第二本地数据;
根据第二本地数据和预设聚类参数确定该密度直达数据点是否为核心数据点, 并确定
该密度直达数据点密度直达的第五数据集;
合并第三数据集和第五数据集得到第四数据集。
4.根据权利要求1所述的一种适用于大数据挖掘的混合聚类方法, 其特征在于, 步骤S4
包括以下步骤:
计算各第一数据集之间的数据集距离, 将数据集距离小于预设距离值的两个第 一数据
集作为待合并数据集对;
计算待合并数据集对的一个第一数据集中的数据簇与另一个第一数据集中的数据簇
之间的数据簇距离, 将数据簇距离小于预设距离值的两个数据簇作为待合并数据簇对;
使用预设的改进DBSCAN算法对待合并数据簇对进行第三次聚类操作, 进行数据簇合
并, 得到所述原 始数据集的聚类结果。
5.一种适用于大数据挖掘的混合 聚类系统, 其特征在于, 包括数据获取模块、 第 一次聚
类模块、 第二次聚类模块与结果模块:权 利 要 求 书 1/3 页
2
CN 115408447 A
2所述数据获取模块, 用于从数据库获取待处 理的原始数据集;
所述第一次聚类模块, 用于使用K ‑means++算法对所述原始数据集进行第一次聚类操
作, 将所述原 始数据分组为多个第一数据集;
所述第二次聚类模块, 用于针对每一第一数据集, 使用预设的改进DBSCAN算法对该第
一数据集进行第二次聚类操作, 得到数据簇; 所述改进DBS CAN算法在确定聚类簇时, 针对每
一样本数据点, 根据该样本数据点各邻居 数据点的本地数据确定该样本数据点的第二数据
集, 根据第二数据集确定该样本数据点是否为核心数据点; 第二数据集为该第一数据集的
子集;
所述结果模块, 用于将各第一数据集的数据簇进行合并, 得到所述原始数据集的聚类
结果。
6.根据权利要求5所述的一种适用于大数据挖掘的混合聚类系统, 其特征在于, 所述第
二次聚类模块包括第一本地数据计算模块、 第一判断模块、 第二数据集确定模块、 第二判断
模块、 第一循环模块和第二循环模块:
所述第一本地数据计算模块, 用于针对每一第一数据集, 从该第一数据集中随机选择
一个初始数据点, 计算该点到该第一数据集中其他数据点的距离, 作为初始数据点的第一
本地数据;
所述第一判断模块, 用于根据第 一本地数据和预设聚类参数确定所述初始数据点是否
为核心数据点, 并确定所述初始数据点密度直达的第三数据集;
所述第二数据集确定模块, 用于针对第三数据集中的每一密度直达数据点, 根据本地
数据和预设聚类参数确定该密度直达数据点的第二数据集;
所述第二判断模块, 用于根据第二数据集判断该密度直达数据点是否为核心数据点,
并确定所述初始数据点密度相连的第四数据集;
所述第一循环模块, 用于依次循环执行所述第 二数据集确定模块和所述第 二判断模块
的操作, 直到确定出与所述初始数据点密度相连的数据点中的所有 核心数据点;
所述第二循环模块, 用于依次循环执行所述第一本地数据计算模块、 所述第一判断模
块、 所述第二数据集确定模块、 所述第二判断模块和所述第一循环模块的操作, 直到确定出
该第一数据集中所有数据簇 。
7.根据权利要求6所述的一种适用于大数据挖掘的混合聚类系统, 其特征在于, 所述第
二判断模块包括第一本地数据计算模块、 第五数据集确定模块和数据合并模块:
所述第一本地数据计算模块, 用于计算该密度直达数据点到第 二数据集中其他数据点
的距离, 作为该密度直达数据点的第二本地数据;
所述第五数据集确定模块, 用于根据第 二本地数据和预设聚类参数确定该密度直达数
据点是否为核心数据点, 并确定该密度直达数据点密度直达的第五数据集;
所述数据合并模块, 用于合并第三数据集和第五数据集得到第四数据集。
8.根据权利要求5所述的一种适用于大数据挖掘的混合聚类系统, 其特征在于, 所述结
果模块包括第一计算模块、 第二计算模块和第三次聚类模块:
所述第一计算模块, 用于计算各第一数据集之间的数据集距离, 将数据集距离小于预
设距离值的两个第一数据集作为待合并数据集对;
所述第二计算模块, 用于计算待合并数据集对的一个第 一数据集中的数据簇与另一个权 利 要 求 书 2/3 页
3
CN 115408447 A
3
专利 一种适用于大数据挖掘的混合聚类方法及系统
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:34:12上传分享