近年来,数据领域出现了人工智能、物联网、边缘计算、数据治理、数据湖、数据中台……可谓“百花齐放”!那时,每个人都在谈论新概念,但并不是每个人都确切地知道它们的意思。
“人都在数据中间,你还在做数据报告。”
“人们有数据湖,而你还在研究数据仓库。”
“阿里“拆台”,中国台湾不香吗?”
……
您为什么想成为数据湖/数据中心,其价值是什么?哪个更好还是更差?我的公司是否会成为数据中心/数据湖,这是一个伴随而来的问题。
事物总是在进化,唯一不变的就是变化。今天,我将与您讨论数据仓库、数据湖和数据中心概念之间的联系。
01数据仓库
1988年,为了解决企业数据集成问题,来自IBM的两位研究人员创造性地提出了一个新名词:数据仓库。1992年,后来被称为“数据仓库之父”的比尔·英蒙给出了数据仓库的定义。20多年后的今天,他的定义并没有被时代所淘汰。让我们看看他是如何定义的:
数据仓库是面向主题的、集成的、相对稳定的历史数据集合,用于支持管理中的决策。
我们可以从两个层面理解数据仓库的概念:
首先,数据仓库用于支持决策,面向分析型数据处理,不同于企业现有的运营数据库;
其次,数据仓库有效地集成了多个异构数据源。集成后按照主题进行重组,包含历史数据,数据仓库中存储的数据一般不做修改。
简单的理解,其实就是对于OLAP来说,把分散的、独立的数据库孤岛整合成一个数据结构,这个数据结构叫做数据仓库。
△数据仓库逻辑架构 △数据仓库逻辑架构
原来,每个数据孤岛中的数据在物理位置、存储格式、商业平台、编写语言等方面可能完全不同。数据仓库的工作就是将它们按照需要的格式提取出来,然后进行必要的转换和清洗,最后加载到数据仓库中。
自从数据仓库出现以来,信息产业逐渐从一个基于关系数据库的操作系统发展成为一个决策支持系统。这个决策支持系统实际上就是我们现在所说的商业智能,即BI。可以说,数据仓库为OLAP解决了数据来源问题,数据仓库与OLAP相互促进发展,进一步带动了商业智能的成熟。
数据仓库是一个功能概念,通过维度建模将企业各个业务系统产生的基础数据划分为多个主题进行统一存储和管理。
应用场景:一般用作商业智能系统、数据仪表盘等可视化报表服务的数据源。
02数据集市
数据仓库之父Bill inmon曾说过“IT管理者面临的最重要的问题是先建数据仓库还是先建数据集市”,可见了解它们之间的关系是非常重要和迫切的。通常,在考虑建立数据仓库之前,会涉及以下问题:
采用自上而下或自下而上的设计方法
企业范围或部门范围
首先建立数据仓库或数据集市
建立试点系统或直接实施
数据集市相互独立吗
数据集市可以理解为一种“小数据仓库”,它只包含一个单一的主题,关注的范围也不是全局的。数据集市可以分为两种类型:
一个是独立的数据集市,有自己的源数据库和ETL架构;
另一种是独立的数据集市,没有自己的源系统,数据来自数据仓库。当用户或应用程序不需要/需要/不允许使用整个数据仓库的数据时,依赖数据集市可以简单地为用户提供数据仓库的子集。
数据集市是一个结构化的概念,是企业级数据仓库的子集,主要面向部门级业务,只面向特定的主题。
应用场景:数据集市是多个仓库之上更为集中的业务主题集合,更倾向于满足业务数据快速高效应用的需求,一般用于商业智能系统中的探索性、交互性数据分析应用
03数据湖
2010年,Pentaho首席技术官詹姆斯·迪克森创造了“数据湖”一词。他将数据集市描述为一瓶易于使用的干净、包装和结构化的水。数据湖更像是自然状态下的水,数据从源系统流向湖泊。用户可以检查、采样或完全使用数据湖中的数据。
这也是一个不精确的定义。数据湖还具有以下特征:
从源系统导入所有数据,不会丢失数据。
数据无需转换即可存储或简单处理。
数据转换和定义模式用于满足分析需求。
数据湖可以给企业带来多种能力,比如可以实现数据的集中管理,在此之上,企业可以挖掘出很多以前没有的能力。
此外,Data Lake结合先进的数据科学和机器学习技术,可以帮助企业构建更加优化的运营模型,还可以为企业提供其他能力,如预测分析和推荐模型,可以刺激企业能力的后续增长。
△数据湖示意图 △数据湖示意图
Data Lake是一种数据存储概念,是用于存储企业各种原始数据的大型仓库,包括结构化、非结构化、二进制图像、音频、视频等。
应用场景:基于大数据技术,需要存储数据结构多样化的海量大数据,也可以作为数据仓库或数据集市的数据源。
04数据中间站
数据中台是指对企业内外的多源、异构数据进行采集、治理、建模、分析和应用,使数据在内部得到优化以提升业务,在外部释放数据协同价值,从而成为企业数据资产管理中心。数据中心建立后,将形成数据API,为企业和客户提供高效的数据服务。
△数据中台架构图 △数据中间站架构图
数据中心整体技术架构采用云计算架构模式,将数据资源、计算资源、存储资源全面云化,通过多租户技术对资源进行打包整合,开放给用户提供“一站式”数据服务。
利用大数据技术,对海量数据进行统一的采集、计算和存储,并使用统一的数据规范进行管理。将企业中的所有数据处理成标准化的数据,挖掘对企业最有价值的数据,构建企业数据资产库,提供一致、高可用的大数据服务。
数据中间站不是一套软件,也不是一个信息系统,而是一系列数据组件的集合。企业基于自身的信息化建设基础、数据基础和业务特点定义数据中台的能力,基于能力定义使用数据组件构建自己的数据中台。
数据中心是一个逻辑概念。为业务提供服务的主要方式是数据API,包括数据仓库、大数据和数据治理。
应用场景:向业务系统提供数据服务,目的是将数据能力渗透到业务的各个方面,而不仅限于决策分析。
各种概念的比较
ODS VS数据仓库VS数据集市
运营数据库、数据仓库和数据集市是当前标准数据仓库结构的三个核心组件。
ODS被用作所有原始数据的临时存储区,这些数据将很快进入数据仓库进行数据处理。我们可以把它想象成一个仓库装载码头,在那里货物被交付、检查和验证。在ODS中,数据可以在进入仓库之前进行清理和检查,还可以检查是否符合业务规则。在ODS中,我们可以查询数据,但是数据是临时的,所以它只提供简单的信息查询,比如正在进行的客户订单的状态。
数据集市通常是数据仓库的一个子集。它的数据通常来自数据仓库,尽管它也可以来自其他来源。数据集市的数据是针对特定的用户,让他们快速找到自己需要的数据。通常,数据存储在那里是为了特定的目的,例如财务分析。
数据集市也比数据仓库小得多,后者可以容纳几十千兆字节。相比之下,数据仓库可以存储数百千兆到数千兆字节的数据,并可用于数据处理。数据集市可以从现有的数据仓库或其他数据源系统中构建。您只需要设计和构建数据库表,用相关数据填充数据库表,并决定谁可以访问数据集。
数据仓库VS数据湖
就存储对象而言,数据仓库和数据湖的主要区别在于:
数据仓库用于存储来自多个来源的结构化数据。
数据湖的不同之处在于它可以存储非结构化、半结构化和结构化的数据。
数据仓库VS数据湖VS数据中台
大数据时代,数据量越来越大,数据形式也越来越复杂。然而,以数据仓库为代表的现有数据存储和处理技术无法满足海量和多样化的数据处理需求。“数据湖”是将复杂的事物可视化,更具技术性,体现了其在大数据存储和处理方面的优势和能力。
作为一个集中式存储库,数据湖可以存储任何形式和规模的数据。在数据湖中,存储的数据无法结构化,只有当数据被使用时,数据湖强大的大数据查询、处理、分析等组件才能对数据进行处理和应用。因此,数据湖能够运行不同类型的数据分析。
从技术层面来说,数据中心继承了数据湖的技术。通过数据技术,它收集、处理、存储和计算海量、多源、多样的数据。同时统一标准和口径,统一数据后以标准形式存储,形成大数据资产层,满足前台数据分析和应用的需求。数据中心更重应用,更贴近业务,强调服务前台的能力,实现逻辑、算法、标签、模型、数据资产的沉淀和复用,能够更快响应业务和应用开发的需求,具有可追溯性和准确性。
06总结
根据以上对数据仓库、数据湖、数据中间平台的概念讨论和比较,我们总结如下:
1.数据仓库是通过ETL技术对原始数据进行进一步的处理,提高数据质量,统一数据标准,然后对数据进行分类,这是对主题进行维度建模的过程,对数据进行统一存储和管理,以满足决策分析的需求。
2.数据湖就像一个大仓库,存储任何格式的数据,但只存储原始数据。
3.数据中间平台是将数据治理后的数据仓库或大数据平台中的数据通过接口的方式直接服务于应用系统。
那么这些企业都必须这么做吗?
对于企业来说,选择哪个平台?答案是没有最好,只有最好。盘点自己企业的数据资产、数据服务需求和数据治理能力,然后根据成熟度能力模型进行评估,正确定位自己。
无论是建设数据仓库还是数据中心,都是以业务目标为主,从不盲目跟风,没有最好的技术,只有最适合的平台。当然,无论你搭建哪个平台,益心华辰都能为你提供专业的产品解决方案。在过去的15年里,我们一直致力于为政府和企业用户提供从数据采集、存储、治理和分析到智能应用的智能数据生命周期管理解决方案,帮助企业实现数据驱动和数据智能。