大数据的小世界

日期: 2012-05-16 来源:TechTarget中国 英文

  当我们谈论大数据和数据仓库时,提及Hadoop几乎是不可避免的。

  但Hadoop并非空穴来风,就像大多数的大数据技术,它在这一领域与其它技术具有密切的关系。在这种情况下,Hadoop利用映射/缩减技术形成一种数据框架,用以存储数据,而且获得这些数据的应用程序可以运行,可以追溯到另一种数据仓库技术: 企业搜索。

  企业搜索,也称为实时搜索,是一种数据存储的方法,应用搜索的观念并将其应用于大量的非结构化或部分结构化的数据(如文件)的收集时。

  最好的文件储存系统将利用某种XML或基于SGML的标记,让那些文件的内容很有条理。但在现实中,文件会与这种理想的标记有些出入。这也正是企业搜索的用武之地了。

  企业搜索产品,比如ElasticSearch, Apache Lucene和 Apache Solr,用一种被称为切面的概念,让你能像关系型数据库中的字段那样处理文件中的数据。从本质上来说切面是反相索引,让你在一份文件中找到具体的信息,如地址或者其它的客户信息。

  企业搜索最好用在你把一大套这种类型的文件精选一遍时,而且需要做一些简单的数据挖掘或商业智能(BI)分析。结构化数据越多越好: 企业搜索在处理网络博客这样的文件时确实很好,它有一致的结构化足以能够更深的数据挖掘。

  企业搜索和当前被大肆宣传的Hadoop之间的连接在于两种技术的创造者:Doug Cutting。Cutting目前是商业Hadoop供应商Cloudera的一位架构师,他在1998年把, Lucene一起作为一种Java搜索引擎库。

  但是生活(与网路的兴起)让Cutting远离了他的Java项目。到2000结束之际,Cutting选择把这个完美的搜索引擎库在SourceForge的 GPL授权之下开源。在潜在用户强烈的回推之后,Cutting后来将授权转向了更少限制的 LGPL。

  在该项目于2001年被邀请加入Apache软件基金会时,Cutting被鼓励带着它们去报价,从那时起Lucene就在ASF的保护之下,并在Apache开源协议下授权。

  Cutting继续在Lucene工作 ,开发技术进入开源Nutch搜索引擎,它相对于Lucene这样的平台来说是一种完全在线的应用程序。Nutch也偏向于适应于网络搜索,并使用了许多企业搜索中的特性,如网页的抓取,文件格式及文字检测和语法分析。

  但是,就算Nutch证明了它的强大功能,它也不能扩展到足以搜索企业级的数据集。多结点的安装,甚至只有四个节点,也将被证明很难管理。在Nutch中任何超过1亿页的空间配置和资源管理都将证明是难以承受的。

  因此在2008年,Hadoop诞生了,它利用分布式计算技术并成为Nutch运行的新框架。Hadoop分布式文件系统再加上MapReduce(两者都在谷歌项目上被模仿),将是Nutch框架运行的基础。

  Cutting的Lucene不仅培育了基于MapReduce的 Hadoop技术的创造,它还形成了其他企业搜索技术的基础。特别是ElasticSearch和Apache Solr都是使用了Lucene 的Java搜索库的企业网络搜索工具。

  在企业搜索领域对于这两个工具哪个更好有很多的争论。据说Solr非常快,但ElasticSearch的分布式能力意味着可以在许多分布式资源上共享工作,因此能提供类似的性能。

  技术的进化很有趣,但不只是从一种单纯深奥的立场。了解这些技术如何融合在一起,会让用户更好地了解哪一种解决方案更适合他们。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐