探讨企业数据架构战略和数据湖的可能性和必要性

日期: 2015-09-07 作者:David Loshin翻译:陈晓诚 来源:TechTarget中国 英文

现今的企业数据架构战略,必须解决如何将现有的数据系统与日益增长的信息需求,性能和数据源相匹配。

现今的CIO们,在整合企业数据架构中日益增长的各方面需求时,面临着两大挑战。首先,是将现有的支持运行应用程序的数据系统, 与分析师和数据科学家越来越多的信息需求之间相匹配。其次,是管理持续不断的,创新的数据管理功能 (比如Hadoop或NoSQL)在企业内部的集成。CIO的职责就是完成这一数据集成,提高数据的可访问性,同时降低系统的整体复杂性。

然而,大多数企业的数据架构,随着时间的推移,通常在缺少预定义的数据架构战略的情况下,自我进化。相应地,这些企业在能够使用统一的方法访问企业数据资产方面,遇到不断增加的复杂性问题。随着数据管理创新的速度加快,新技术如Hadoop,NoSQL和图形数据库正在计划和引入,也增加了数据使用者对于数据领域复杂性的担忧。

数据湖领域

比较突出的一个例子就是数据湖概念的出现,根据TechTarget的定义,“数据湖是指一个大型的基于对象的存储库,以数据的原始格式保存数据,直到它需要被使用时。” 数据湖基本上是一个数据存储平台,使企业能够收集各种数据集,用数据的原始格式进行存储,并让不同的数据使用者可以访问这些数据集,使他们能够根据各自的业务目的使用这些数据。 数据湖的好处之一,就是为共享数据提供了单一存储库,从而降低数据复制,避免数据不一致和增加成本。

和传统的数据采集和数据获取方法相比,数据湖从根本上采取了不同的方法。传统方法旨在使数据符合预定义的数据模型, 从而创建一个统一的数据资产,让所有的数据使用者共享。将数据规范定义到单一格式,这种方法,称为schema-on-write,可以限制下游使用者分析数据的方式。在数据湖中存储数据的方式则被称为schema-on-read,意为没有预定义的数据存储方式的限制,而是由使用者根据各自的需求,定义访问数据的方式。

大数据

数据湖带来了一些挑战,尤其是对于那些习惯使用自己的数据集副本进行报告和分析的下游数据使用者。首先,必须有一种方便获取数据湖中数据的方式,其次,必须有一个方法配置被访问的数据,以一种用户习惯的模型呈现。

在数据架构战略中使用虚拟化工具

全新的企业数据架构战略所面临的这些挑战,都可以通过使用数据虚拟化工具得以解决。数据虚拟化和联邦工具在一组数据源和不同的数据使用者之间提供了一个抽象层。 面向数据的工具被称为数据联邦。 这种技术提供了访问各种数据源类型的方案,包括大多数关系数据库系统,前代存储系统(比如,flat files,VSAM文件和其他主机存储方式),以及各类新兴技术,如Hadoop和NoSQL。数据联邦工具使应用程序能够透明地查询分布在多个存储平台的数据,同时隐藏数据源位置,或数据格式的详细信息。而面向使用者的工具通常被称为数据虚拟化。这一技术允许数据使用者定义逻辑语义数据模型,然后映射到每个联邦数据源的模型。这一语义模型提供了抽象层,简化了数据使用者的可访问性。用户对语义模型的查询被转换为每个联邦数据源的一系列自定义查询集。 当这些查询的结果集返回到数据虚拟化工具时,这些中间结果会被收集,整理和配置成一个最终的结果集返回给用户。实际上,数据虚拟化工具通过面向使用者的数据实体化规则,简化了将来自多个源的数据相融合的技术。

在定义语义模型中使用数据虚拟化工具,解决了访问数据湖中数据的两大问题。对数据湖的数据进行联邦访问,不需要用户改写他们的应用程序,从而包含从数据湖读取数据的代码,同时降低了数据复制的需求。现有的应用程序可以连接语义模型,使数据源对于使用者的应用程序变得透明。同时,数据虚拟化会隐藏schema-on-read的复杂性,使每个用户都能够将特定的数据规范化和数据转换规则应用于数据,从而适用于每个应用程序。

数据虚拟化和数据联邦是支持企业数据架构战略(包括大数据)的桥接技术。这些工具降低了开发和运营的成本,通过(低成本)数据湖的使用,降低复制数据集的存储需求。它们还为大多数平台提供了一个无缝的可访问性,随着新技术的不断采用,延伸了传统平台的生命周期。 数据虚拟化工具,通过使用内部软件的缓存,查询最优化,流水线数据流,和压缩存储,从而简化了环境数据的可访问性,避免了显著的性能退化。这些工具还为引入从大量快速兴起的数据源中提取和分析信息的创新技术铺平了道路。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者

David Loshin
David Loshin

Knowledge Integrity公司总裁,专注商务智能、大数据、数据质量、数据治理和主数据管理。

相关推荐