专利 一种适用于大数据挖掘的混合聚类方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211130635.4 (22)申请日 2022.09.16 (71)申请人广东天舜信息科技有限公司地址 510700 广东省广州市黄埔区科学城瑞和路79号瑞博奥大楼1期3楼312、 313房 (72)发明人刘利红　 (74)专利代理机构广东省中源正拓专利代理事务所(普通合伙) 44748 专利代理师党冲 (51)Int.Cl. G06F 16/2458(2019.01) G06F 16/28(2019.01) G06K 9/62(2022.01) (54)发明名称一种适用于大数据挖掘的混合聚类方法及系统 (57)摘要本发明公开了一种适用于大数据挖掘的混合聚类方法及系统，涉及大数据技术领域。使用 K‑means++算法对原始数据集进行第一次聚类操作，将原始数据分组为多个第一数据集；针对每一第一数据集，使用预设的改进DBSCAN算法对该第一数据集进行第二次聚类操作，得到数据簇；将各第一数据集的数据簇进行合并，得到所述原始数据集的聚类结果。采用K ‑means++与改进 DBSCAN的混合算法，通过将原始数据集进行分组降低原始数据集的计算数据量，在组内样本数据点可以根据各邻居数据点的本地数据只计算第二数据集降低组内数据集的计算数据量，降低了算法的时间复杂度，提高执行聚类操作的速度，进而提高大数据挖掘的效率。权利要求书3页说明书8页附图3页 CN 115408447 A 2022.11.29 CN 115408447 A 1.一种适用于大数据挖掘的混合聚类方法，其特征在于，所述方法包括以下步骤： S1：从数据库获取待处理的原始数据集； S2：使用K ‑means++算法对所述原始数据集进行第一次聚类操作，将所述原始数据分组为多个第一数据集； S3：针对每一第一数据集，使用预设的改进DBSCAN算法对该第一数据集进行第二次聚类操作，得到数据簇；所述改进DBSCAN算法在确定聚类簇时，针对每一样本数据点，根据该样本数据点各邻居数据点的本地数据确定该样本数据点的第二数据集，根据第二数据集确定该样本数据点是否为核心数据点；第二数据集为该第一数据集的子集； S4：将各第一数据集的数据簇进行合并，得到所述原始数据集的聚类结果。 2.根据权利要求1所述的一种适用于大数据挖掘的混合聚类方法，其特征在于，步骤S3 包括以下步骤： S31：针对每一第一数据集，从该第一数据集中随机选择一个初始数据点，计算该点到该第一数据集中其他数据点的距离，作为初始数据点的第一本地数据； S32：根据第一本地数据和预设聚类参数确定所述初始数据点是否为核心数据点，并确定所述初始数据点密度直达的第三数据集； S33：针对第三数据集中的每一密度直达数据点，根据本地数据和预设聚类参数确定该密度直达数据点的第二数据集； S34：根据第二数据集判断该密度直达数据点是否为核心数据点，并确定所述初始数据点密度相连的第四数据集； S35：重复上述步骤S33 ‑S34，直到确定出与所述初始数据点密度相连的数据点中的所有核心数据点； S36：重复上述步骤S31‑S35，直到确定出该第一数据集中所有数据簇。 3.根据权利要求2所述的一种适用于大数据挖掘的混合聚类方法，其特征在于，步骤 S34包括以下步骤：计算该密度直达数据点到第二数据集中其他数据点的距离，作为该密度直达数据点的第二本地数据；根据第二本地数据和预设聚类参数确定该密度直达数据点是否为核心数据点，并确定该密度直达数据点密度直达的第五数据集；合并第三数据集和第五数据集得到第四数据集。 4.根据权利要求1所述的一种适用于大数据挖掘的混合聚类方法，其特征在于，步骤S4 包括以下步骤：计算各第一数据集之间的数据集距离，将数据集距离小于预设距离值的两个第一数据集作为待合并数据集对；计算待合并数据集对的一个第一数据集中的数据簇与另一个第一数据集中的数据簇之间的数据簇距离，将数据簇距离小于预设距离值的两个数据簇作为待合并数据簇对；使用预设的改进DBSCAN算法对待合并数据簇对进行第三次聚类操作，进行数据簇合并，得到所述原始数据集的聚类结果。 5.一种适用于大数据挖掘的混合聚类系统，其特征在于，包括数据获取模块、第一次聚类模块、第二次聚类模块与结果模块：权　利　要　求　书 1/3 页 2 CN 115408447 A 2所述数据获取模块，用于从数据库获取待处理的原始数据集；所述第一次聚类模块，用于使用K ‑means++算法对所述原始数据集进行第一次聚类操作，将所述原始数据分组为多个第一数据集；所述第二次聚类模块，用于针对每一第一数据集，使用预设的改进DBSCAN算法对该第一数据集进行第二次聚类操作，得到数据簇；所述改进DBS CAN算法在确定聚类簇时，针对每一样本数据点，根据该样本数据点各邻居数据点的本地数据确定该样本数据点的第二数据集，根据第二数据集确定该样本数据点是否为核心数据点；第二数据集为该第一数据集的子集；所述结果模块，用于将各第一数据集的数据簇进行合并，得到所述原始数据集的聚类结果。 6.根据权利要求5所述的一种适用于大数据挖掘的混合聚类系统，其特征在于，所述第二次聚类模块包括第一本地数据计算模块、第一判断模块、第二数据集确定模块、第二判断模块、第一循环模块和第二循环模块：所述第一本地数据计算模块，用于针对每一第一数据集，从该第一数据集中随机选择一个初始数据点，计算该点到该第一数据集中其他数据点的距离，作为初始数据点的第一本地数据；所述第一判断模块，用于根据第一本地数据和预设聚类参数确定所述初始数据点是否为核心数据点，并确定所述初始数据点密度直达的第三数据集；所述第二数据集确定模块，用于针对第三数据集中的每一密度直达数据点，根据本地数据和预设聚类参数确定该密度直达数据点的第二数据集；所述第二判断模块，用于根据第二数据集判断该密度直达数据点是否为核心数据点，并确定所述初始数据点密度相连的第四数据集；所述第一循环模块，用于依次循环执行所述第二数据集确定模块和所述第二判断模块的操作，直到确定出与所述初始数据点密度相连的数据点中的所有核心数据点；所述第二循环模块，用于依次循环执行所述第一本地数据计算模块、所述第一判断模块、所述第二数据集确定模块、所述第二判断模块和所述第一循环模块的操作，直到确定出该第一数据集中所有数据簇。 7.根据权利要求6所述的一种适用于大数据挖掘的混合聚类系统，其特征在于，所述第二判断模块包括第一本地数据计算模块、第五数据集确定模块和数据合并模块：所述第一本地数据计算模块，用于计算该密度直达数据点到第二数据集中其他数据点的距离，作为该密度直达数据点的第二本地数据；所述第五数据集确定模块，用于根据第二本地数据和预设聚类参数确定该密度直达数据点是否为核心数据点，并确定该密度直达数据点密度直达的第五数据集；所述数据合并模块，用于合并第三数据集和第五数据集得到第四数据集。 8.根据权利要求5所述的一种适用于大数据挖掘的混合聚类系统，其特征在于，所述结果模块包括第一计算模块、第二计算模块和第三次聚类模块：所述第一计算模块，用于计算各第一数据集之间的数据集距离，将数据集距离小于预设距离值的两个第一数据集作为待合并数据集对；所述第二计算模块，用于计算待合并数据集对的一个第一数据集中的数据簇与另一个权　利　要　求　书 2/3 页 3 CN 115408447 A 3

专利 一种适用于大数据挖掘的混合聚类方法及系统

专利一种适用于大数据挖掘的混合聚类方法及系统