安全公司报告
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211157568.5 (22)申请日 2022.09.22 (71)申请人 贵州民族大 学 地址 550025 贵州省贵阳市花溪区 (72)发明人 曹发生 岳彩镇 龙艺红  (74)专利代理 机构 陕西铭一知识产权代理有限 公司 61287 专利代理师 马歆甜 (51)Int.Cl. G06F 16/215(2019.01) G06F 16/2458(2019.01) G06F 16/25(2019.01) G06F 16/27(2019.01) G06F 16/28(2019.01) (54)发明名称 一种大数据处理系统 (57)摘要 本发明公开了一种大数据处理系统, 大数据 处理流程包括数据采集、 数据预处理、 数据入库、 数据处理、 数据分析、 数据可视化以及数据确认, 对采集而来的数据线进行预处理, 对 数据进行清 洗、 集成、 归纳、 删除, 减少对数据处理的压力, 对 数据进行初步的分类, 清理, 对预处理的数据进 行入库存储, 防止在后续操作中数据丢失, 可 以 在数据入库这里进行找回, 防止出现数据缺失, 对所有入库的数据进行分布式计算, 对入库数据 进行处理, 有效减少数据读写和移动的开销, 提 高大数据处理性能, 在对处理后的数据进行分 析, 挖掘数据之间的关联性, 深度学习, 对分析过 后的数据进行可视化, 直观的反应出数据信息, 有利与发现数据之间的影藏信息以及规 律。 权利要求书1页 说明书4页 附图2页 CN 115543976 A 2022.12.30 CN 115543976 A 1.一种大数据处理系统, 其特征在于, 包括数据采集模块、 数据预处理模块、 数据库模 块、 数据处理模块、 数据分析模块、 数据可视化模块、 数据确认模块, 其中数据采集模块是采 集原始数据到数据预处理模块, 数据预处理模块设置为用于原始数据的初步处理, 处理过 后的数据导入到数据库模块, 数据 处理模块设置为对数据库中的数据进行处理, 数据库分 析模块是对数据处 理过后的数据进行分析挖掘; 所述数据采集模块, 数据采集分为两种, 一种是对目标服务器打印的日志以及 自定义 采集的日志进行采集, 另一种是运用工具 软件对数据采集到指定的位置; 所述数据预处理模块, 对采集到的原始数据、 多个数据源进行数据清洗、 数据集成、 数 据归纳、 数据转换、 数据删除; 所述数据库模块, 对预处理后的数据进行导入到数据库, 对数据进行分类存储到不同 的库与表中; 所述数据处理模块, 采用批量分布式数据计算框架, 对结构化以及非结构化的数据进 行处理; 所述数据分析模块, 根据 大数据的应用环境以及需求, 对数据进行分析, 分析包括对已 有数据的分布分析、 对未知数据的 的深度学习 、 挖掘、 预测; 所述数据可视化模块, 将大数据分析后所得数据进行可视化, 采用图像、 图形、 表格等 形式进行展示; 所述数据确认模块, 对数据分析后得到数据进行应用, 对应用结果进行检验、 验证。 2.根据权利要求1所述的一种大数据处理系统, 其特征在于, 所述数据分析模块, 对数 据处理过后的数据进 行聚类、 分类、 关联分析、 深度学习, 对 数据集合进 行挖掘, 形成数据关 联性、 分析 数据属性 规则。 3.根据权利要求1所述的一种大数据处理系统, 其特征在于, 所述数据清洗, 对采集到 的数据进行清理, 对不 一致的数据、 噪声数据, 重复数据进行 过滤修正。 4.根据权利要求1所述的一种大数据处理系统, 其特征在于, 所述数据集成, 对多个数 据源进行集成, 形成集中统一的数据库。 5.根据权利要求1所述的一种大数据处理系统, 其特征在于, 所述数据归纳, 对存在的 数据集成进 行简化, 在不损坏数据的前提下对数据进 行维度归纳、 数据归纳、 数据抽样等操 作。 6.根据权利要求1所述的一种大数据处理系统, 其特征在于, 所述数据转换, 对不同集 成中的数据进行转换, 实现数据集成中的数据统一。 7.根据权利要求1所述的一种大数据处理系统, 其特征在于, 所述数据处理模块, 根据 大数据类型选择合适的存储形式和数据 处理系统, 采用分布式计算系统, 分布式计算系统 可有效减少数据读写和移动的开销, 提高大 数据处理性能。 8.根据权利要求1所述的一种大数据处理系统, 其特征在于, 所述数据可视化模块, 对 分析过后的数据进行可视化, 直观的反应出数据信息, 有利与发现数据之间的影藏信息以 及规律。权 利 要 求 书 1/1 页 2 CN 115543976 A 2一种大数据处理系统 技术领域 [0001]本发明涉及大 数据处理技术领域, 尤其涉及一种大 数据处理系统。 背景技术 [0002]很多事情在执行的时候都是有一定 的流程的, 那么大数据的处理也不例外, 这是 因为有关程序都是需要逻辑的, 而大数据 处理也需要逻辑,大数据 处理的数据来源类型丰 富, 大数据处理的第一步是对数据进 行抽取和集成, 从 中提取出关系和实体, 经过关联和聚 合等操作, 按照统一定义的格式对数据进 行存储。 现有的数据抽取和集成方法有三种, 分别 是基于物化或ETL方法的引擎、 基于联邦数据库或 中间件方法的引擎、 基于数据流方法的引 擎,从现有的数据处理方式看出, 往往在处理大批量的数据以及重复数据时, 往往在数据处 理过程中会对所有 数据进行直接存储, 是的大量坏数据被保存, 大量重复数据出现, 而少量 的数据处理引擎在处理数据时, 往往是更具一定的规则在处理过后难免存在数据误删, 数 据缺失等 风险, 为此我们提出一种大 数据处理系统。 发明内容 [0003]本发明的目的是为了解决现有技术中存在数据处理速度慢, 存在数据丢失, 数据 重复等的缺 点, 而提出的一种大 数据处理系统。 [0004]为了实现上述目的, 本发明采用了如下技 术方案: [0005]一种大数据处理系统, 包括数据采集模块、 数据预处理模块、 数据库模块、 数据处 理模块、 数据分析模块、 数据可视化模块、 数据确认模块, 其中数据采集模块是采集原始数 据到数据预处理模块, 数据预处理模块设置为用于原始数据的初步处理, 处理过后的数据 导入到数据库模块, 数据 处理模块设置为对数据库中的数据进行处理, 数据库分析模块是 对数据处 理过后的数据进行分析挖掘; [0006]所述数据采集模块, 数据采集分为两种, 一种是对目标服务器打印的日志以及自 定义采集的日志进行采集, 另一种是运用工具 软件对数据采集到指定的位置; [0007]所述数据预处理模块, 对采集到的原始数据、 多个数据源进行数据清洗、 数据集 成、 数据归纳、 数据转换、 数据删除; [0008]所述数据库模块, 对预处理后的数据进行导入到数据库, 对数据进行分类存储到 不同的库 与表中; [0009]所述数据处理, 采用批量分布式数据计算框架, 对结构化以及非结构化的数据进 行处理; [0010]所述数据分析模块, 根据大数据的应用环境以及需求, 对数据进行分析, 分析包括 对已有数据的分布分析、 对未知数据的 的深度学习 、 挖掘、 预测; [0011]所述数据可视化模块, 将大数据分析后所得数据进行可视化, 采用图像、 图形、 表 格等形式进行展示; [0012]所述数据确认模块, 对数据分析后得到数据进行应用, 对应用结果进行检验、 验说 明 书 1/4 页 3 CN 115543976 A 3

PDF文档 专利 一种大数据处理系统

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种大数据处理系统 第 1 页 专利 一种大数据处理系统 第 2 页 专利 一种大数据处理系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:34:10上传分享
友情链接
交流群
  • //public.wenku.github5.com/wodemyapi/22.png
-->
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。