安全公司报告
ICS 35.240 L67 保 DB5305 山 市 地 方 标 准 DB 5305/T 19.27—2019 替代 DG5305/T 19.27—2017 保山市信息惠民工程综合标准 第 27 部分:信息惠民大数据平台技术标准 2019 - 10 - 30 发布 保山市市场监督管理局 2019 - 11 - 01 实施 发 布 DB5305/T 19.27—2019 前    言 本标准按照GB/T 1.1—2009《标准化工作导则 第1部分:标准的结构和编写》给出的规则起草。 本标准由保山市大数据管理局提出。 本标准由保山市工业和信息化委员会归口。 本标准起草单位:保山市大数据管理局。 本标准主要起草人:刘志胡、王明超、李祖燕、丁威、邹瑜、朱超群。 本标准替代DG5305/T 19.27—2017。 DB5305/T 19.27—2019 保山市信息惠民工程综合标准 第 27 部分 信息惠民大数据平台技术标准 1 范围 本标准规定了保山市信息惠民工程大数据平台的术语、定义和缩略语、总体框架、技术要求和功能 规范,本标准适用于保山市信息惠民工程大数据平台建设。 2 规范性引用文件 下列文件中的条款通过本标准的引用而成为本标准的条款。凡是注日期的引用文件,其随后所有的 修改单(不包括勘误的内容)或修订版均不适用于本标准,然而,鼓励根据本标准达成协议的各方研究 是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本标准。 保山市信息惠民国家试点城市创建顶层设计方案 DB5305/T 19.2-2019 保山市信息惠民工程综合标准 总体框架和技术要求 DB5305/T 19.3-2019 保山市信息惠民工程综合标准 术语 DB5305/T 19.25-2019 保山市信息惠民工程综合标准 数据交换与共享平台技术标准 3 术语、定义 DB5305/T 19.3-2019 确立的以及下列术语和定义适用于本标准。 3.1 Hadoop Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节 的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop 实现了一个分布式文 件系统(Hadoop Distributed File System),简称 HDFS。HDFS 有高容错性的特点,并且设计用来部署 在低廉的(low-cost)硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集 (large data set)的应用程序。HDFS 可以以流的形式访问文件系统中的数据。Hadoop 的框架最核心 的设计就是:HDFS 和 MapReduce。HDFS 为海量的数据提供了存储,则 MapReduce 为海量的数据提供了 计算。 Hadoop 是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可 伸缩的方式进行数据处理;是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。 3.2 Hbase HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库,它是一个适合于 非结构化数据存储的数据库。另一个不同的是 HBase 基于列的而非基于行的模式。 3.3 MapReduce MapReduce 是一种编程模型,用于大规模数据集(大于 1TB)的并行运算。概念"Map(映射)"和"Reduce (归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。 它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前 的软件实现是指定一个 Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的 Reduce (归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。 1 DB5305/T 19.27—2019 3.4 Hive Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供 简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行。 其优点是学习成本低,可以 通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库 的统计分析。 3.5 Pig Pig 是一个基于 Hadoop 的大规模数据分析平台,它提供的 SQL-LIKE 语言叫 Pig Latin,该语言的 编译器会把类 SQL 的数据分析请求转换为一系列经过优化处理的 MapReduce 运算。Pig 为复杂的海量数 据并行计算提供了一个简单的操作和编程接口。 3.6 Storm Storm 是一个分布式的、容错的实时计算系统,为分布式实时计算提供了一组通用原语,可被用于 “流处理”之中,实时处理消息并更新数据库,降低了进行实时处理的复杂性。Storm 可以方便地在一 个计算机集群中编写与扩展复杂的实时计算,Storm 用于实时处理,就好比 Hadoop 用于批处理。Storm 保证每个消息都会得到处理,而且它很快——在一个小集群中,每秒可以处理数以百万计的消息。 3.7 Sqoop Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive)与传统的数据库间进行数据的传递,可以将一 个关系型数据库(例如 : MySQL ,Oracle 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的 数据导进到关系型数据库中。 3.8 YARN Yet Another Resource Negotiator,另一种资源协调者,是一种新的 Hadoop 资源管理器,它是 一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统 一管理和数据共享等方面带来了巨大好处。 3.9 大数据 大数据(big data),指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据 集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和 多样化的信息资产。大数据的 5V 特点(IBM 提出):Volume(大量)、Velocity(高速)、Variety(多 样)、Value(价值)、Veracity(真实性)。 3.10 分布式文件系统 分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接 在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一 个典型的网络可能包括多个供多用户访问的服务器。 3.11 企业服务总线 ESB 企业服务总线是传统中间件技术与 XML、Web 服务等技术结合的产物。ESB 提供了网络中最基本的 连接中枢,是构筑企业神经系统的必要元素。ESB 的出现改变了传统的软件架构,可以提供比传统中间 件产品更为廉价的解决方案,同时它还可以消除不同应用之间的技术差异,让不同的应用服务器协调运 作,实现了不同服务之间的通信和整合。 3.12 结构化数据 结构化数据是行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据。 3.13 非结构化数据 2 DB5305/T 19.27—2019 非结构化数据是不方便用数据库二维逻辑表来表现的数据,包括所有格式的办公文档、文本、图片、 XML、HTML、各类报表、图像和音频/视频信息等等。 3.14 半结构化数据 半结构化数据是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构 的数据(如声音、图像文件等)之间的数据。 3.15 关系型数据库 关系型数据库是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库 中的数据。关系模型就是指二维表格模型,因而一个关系型数据库就是由二维表及其之间的联系组成的 一个数据组织。 4 缩略语 下列缩略语适用于本标准。 ——API:Application Program Interface,应用程序编程接口 ——BPM:Business Process Manager,业务流程管理 ——DFS:Distributed File System,分布式文件系统 ——ESB:Enterprise Service Bus,企业服务总线 ——ETL:Extract- Transform- Load,数据抽取、转换、装载 ——Hbase:Hadoop Database,hadoop 数据库 ——HDFS:Hadoop Distributed File System,Hadoop 分布式文件系统 ——HTML:HyperTextMark-upLanguage,超文本标记语言或超文本链接标示语言 ——IAAS:Infrastructure As A Service,基础设施即服务 ——JSP:Java Server Pages,Java 服务器页面 ——OLAP:Online Analytical Processing,联机分析处理 ——REST:Representational State Transfer,表述性状态传递 ——RPC:Remote Procedure Call Protocol,远程过程调用协议 ——SQL:Structured Query Language,结构化查询语言 ——Web:World Wide Web,万维网或环球网 ——XML:Extensible Markup Language,可扩展标识语言 ——YARN:Yet Another Resource Negotiator,另一种资源协调者 5 总体框架 5.1 概述 信息惠民大数据平台是 DB5305/T 19.2-2019 中确立的信息惠民工程总体框架的“一个综合服务平 台”的一部分。信息惠民大数据平台是以 Hadoop 大数据体系为基础,实现结构化、半结构化和非结构 化的海量数据进行存储、处理分析、数据转换、数据应用等功能,是统一处理信息惠民大数据库的海量 大数据的支撑平台。 5.2 体系架构 5.2.1 体系架构图 信息惠民大数据平台的体系架构见图 1,包括数据层、计算层和服务层。 3 DB5305/T 19.27—2019 图 1 大数据平台体系架构 数据查询检索服 数据处理服务 服 务 层 数据分析服务 … ESB 服务总线 RESTful RPC WebService JAVA API Servle /JSP …

pdf文档 DB5305-T 19.27-2019 保山市信息惠民工程综合标准 第27部分:信息惠民大数据平台技术标准 保山市

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
DB5305-T 19.27-2019 保山市信息惠民工程综合标准 第27部分:信息惠民大数据平台技术标准 保山市 第 1 页 DB5305-T 19.27-2019 保山市信息惠民工程综合标准 第27部分:信息惠民大数据平台技术标准 保山市 第 2 页 DB5305-T 19.27-2019 保山市信息惠民工程综合标准 第27部分:信息惠民大数据平台技术标准 保山市 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2022-10-22 06:51:11上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。