迎接海量数据的五个问题(上)

日期: 2011-08-10 作者:Linda Tucci翻译:Tina Guo 来源:TechTarget中国 英文

揭示海量数据中包含的秘密是公司打败竞争对手的下一个阵地。但是首先,IT需要处理编码。如果你的IT组织不清楚海量数据到底是什么意思,不明白应该在大型数据资产中如何应用,编码就不是唯一的问题了。   五月,Forrester的分析师Boris Evelson和他的同事向4000多位客户了解了他们企业对海量数据的了解和应用情况。

在回复中,他发现了一些不寻常:随着问题难度的增加,回复的人数也大量减少,只有40%完成了调查。他之前还没有遇到过被这么多人放弃的问题。Evelson是商业智能方面的专家,他说:“作为经验丰富的分析师,我们认为这是我们对市场调查的另一种研究,我们参与讨论,最后获得最佳实践。今天……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

揭示海量数据中包含的秘密是公司打败竞争对手的下一个阵地。但是首先,IT需要处理编码。如果你的IT组织不清楚海量数据到底是什么意思,不明白应该在大型数据资产中如何应用,编码就不是唯一的问题了。

  五月,Forrester的分析师Boris Evelson和他的同事向4000多位客户了解了他们企业对海量数据的了解和应用情况。在回复中,他发现了一些不寻常:随着问题难度的增加,回复的人数也大量减少,只有40%完成了调查。他之前还没有遇到过被这么多人放弃的问题。Evelson是商业智能方面的专家,他说:“作为经验丰富的分析师,我们认为这是我们对市场调查的另一种研究,我们参与讨论,最后获得最佳实践。今天后,我得出了结论,我们现在可以为客户提供的只能是告诉他们应该问什么问题。”

  所以,尽管大家都在等着最佳实践,SearchCIO.com还是请专家回答了五个问题。这五个问题也是CIO在迎接海量数据之前应该考虑的。这些建议是基于对几位专家的采访,包括Evelson、他同事Brian Hopkins(研究新技术对企业IT架构影响的分析师)、Gartner负责业务应用的研究副总Yvonne Genovese以及Gartner专注于数据集成和BI的研究副总Mark Beyer。

  1.挖掘海量数据为什么那么难?已经有些非常负责的BI工具了。

  专家说,尽管海量数据是这样的一个名字,但海量数据和量的关系非常有限。千兆兆的数据可以很容易的加载到任何大型的可扩展的数据仓库中。Hopkins说,但是,传统的数据仓库跟不上数据的变化(这种变化也就是海量数据的特色),也跟不上数据交付的间歇性的速度。他说,传统的BI系统“真的可以工作,只要你考虑得是公司使用数据量的1%。投入了大量资金的大型数据库不能捕捉到另外99%的数据价值。”

  根据业务或者现有系统的风险相关规划,Gartner提出了CIO应该挨个处理的海量数据的12个方面。Beyer说,解决架构问题几乎是三分之一的大公司要面对的挑战,但是真正的艰难的部分“是从杂乱中分离出信息”。

  2.大型数据的软件开发生命周期和我们在传统BI中使用的是一样的处理方式吗?

  “当然不是”Forrester的Evelson回答说。在传统的BI项目中,业务要求总是排在首位。“你谈论业务用户、确定要求、写到纸上、然后架构并实施。海量数据主要是关于我甚至并不清楚地了解应该向你提出什么要求这样一种事实的。”这需要探索。要求可能会快速合并,但是可能最初的理论得不到结论的只吃,而且需要更多的探索。

  Evelson解释说,既然业务需要CIO把海量数据作为计算运营的一部分,IT的倾向就会是向它“要生产力”,主要是通过大型企业IT的原则,例如安全、可扩展性和灾难恢复等将其包装起来。但是标准的运营流程,例如根据工作和部分保护对数据的访问,并不总是可以用于海量数据。他说,“如果你保护某物,你就不能探索它;如果你不能探索,你就不能找到仿制;如果你不能仿制,那就不知道会有哪些要求。”

  把一项有趣的发现放入生产进行测试,是传统BI的做法,但是这样在海量数据中可能不会有效,因为数据的探索是在海量数据,例如社交网络中发生的,而这样的数据瞬息万变。Forrester的Hopkins说,今天采用的探索分析不能确定昨天的还有效。回到过去,并对数据重新操作”要求有捕捉原数据镜像的技术。

  IT组织需要让知道怎么工作的人去做,而组织需要提供便于工作的技术。Hopkins说,这样一来,它就可以和现有的IT系统整合了。

  专家认为,BI中神圣的“唯一的真理”在海量数据中要忘掉。Gartner的Beyer说,在海量数据中,只有事实的唯一版本。反常不再是一个异常值,而只是另一个数据点“数据质量是我数据的内在评级,不是必需处理的。”

  关于真理版本的另一点 :企业的其他部分也有一些竞争的方法可以管理和分析非IT责任的海量数据。例如,运营,它利用BI工具中的数据历史软件收集数据。这些数据代表了运营的真理解释。Beyer说,当它滚滚而来时,你需要准备好治理模式。“如果你把这些相同的数据交给四位分析师,每位都有Mapreduce(分布式计算系统)引擎,而且他们都有自己从混乱中提取信息的背景,那么真正的讨论就开始了。”

作者

Linda Tucci
Linda Tucci

Executive Editor Linda Tucci oversees news and e-zine projects for SearchCIO.com and SearchCIO-Midmarket.com. She has covered CIO strategy since joining TechTarget in 2005, focusing most recently on big data, mobile computing and social media. She also writes frequently about the CIO role and CIO careers for SearchCIO.com's weekly CIO Matters column. Prior to joining TechTarget she was a business columnist for the St. Louis Post-Dispatch. Her freelance work has appeared in The Boston Globe and T

翻译

Tina Guo
Tina Guo

相关推荐