当我们谈论大数据和数据仓库时,提及Hadoop几乎是不可避免的。
但Hadoop并非空穴来风,就像大多数的大数据技术,它在这一领域与其它技术具有密切的关系。在这种情况下,Hadoop利用映射/缩减技术形成一种数据框架,用以存储数据,而且获得这些数据的应用程序可以运行,可以追溯到另一种数据仓库技术: 企业搜索。
企业搜索,也称为实时搜索,是一种数据存储的方法,应用搜索的观念并将其应用于大量的非结构化或部分结构化的数据(如文件)的收集时。
最好的文件储存系统将利用某种XML或基于SGML的标记,让那些文件的内容很有条理。但在现实中,文件会与这种理想的标记有些出入。这也正是企业搜索的用武之地了。
企业搜索产品,比如ElasticSearch, Apache Lucene和 Apache Solr,用一种被称为切面的概念,让你能像关系型数据库中的字段那样处理文件中的数据。从本质上来说切面是反相索引,让你在一份文件中找到具体的信息,如地址或者其它的客户信息。
企业搜索最好用在你把一大套这种类型的文件精选一遍时,而且需要做一些简单的数据挖掘或商业智能(BI)分析。结构化数据越多越好: 企业搜索在处理网络博客这样的文件时确实很好,它有一致的结构化足以能够更深的数据挖掘。
企业搜索和当前被大肆宣传的Hadoop之间的连接在于两种技术的创造者:Doug Cutting。Cutting目前是商业Hadoop供应商Cloudera的一位架构师,他在1998年把, Lucene一起作为一种Java搜索引擎库。
但是生活(与网路的兴起)让Cutting远离了他的Java项目。到2000结束之际,Cutting选择把这个完美的搜索引擎库在SourceForge的 GPL授权之下开源。在潜在用户强烈的回推之后,Cutting后来将授权转向了更少限制的 LGPL。
在该项目于2001年被邀请加入Apache软件基金会时,Cutting被鼓励带着它们去报价,从那时起Lucene就在ASF的保护之下,并在Apache开源协议下授权。
Cutting继续在Lucene工作 ,开发技术进入开源Nutch搜索引擎,它相对于Lucene这样的平台来说是一种完全在线的应用程序。Nutch也偏向于适应于网络搜索,并使用了许多企业搜索中的特性,如网页的抓取,文件格式及文字检测和语法分析。
但是,就算Nutch证明了它的强大功能,它也不能扩展到足以搜索企业级的数据集。多结点的安装,甚至只有四个节点,也将被证明很难管理。在Nutch中任何超过1亿页的空间配置和资源管理都将证明是难以承受的。
因此在2008年,Hadoop诞生了,它利用分布式计算技术并成为Nutch运行的新框架。Hadoop分布式文件系统再加上MapReduce(两者都在谷歌项目上被模仿),将是Nutch框架运行的基础。
Cutting的Lucene不仅培育了基于MapReduce的 Hadoop技术的创造,它还形成了其他企业搜索技术的基础。特别是ElasticSearch和Apache Solr都是使用了Lucene 的Java搜索库的企业网络搜索工具。
在企业搜索领域对于这两个工具哪个更好有很多的争论。据说Solr非常快,但ElasticSearch的分布式能力意味着可以在许多分布式资源上共享工作,因此能提供类似的性能。
技术的进化很有趣,但不只是从一种单纯深奥的立场。了解这些技术如何融合在一起,会让用户更好地了解哪一种解决方案更适合他们。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
洲际酒店集团与阿里云助推酒店业数字化转型
近日,国际酒店管理公司洲际酒店集团与阿里云在2018杭州云栖大会召开期间签署深化合作谅解备忘录。双方将强强联手 […]
-
数据和云计算对CIO工作的影响
近日笔者在报道云计算对首席信息官(CIO)的影响时,总是会得出相同的观点:CIO的工作已经不再是曾经的技术工作 […]
-
2018是人工智能之年
如果说人类的历史进步教会了我们什么的话,那就是真正的阶段性进展都不是来源于单一的技术突破,而是由同期的各种因素 […]
-
发现改变的力量 远洋集团新技术引领大会直击科技发展浪潮
“发现改变的力量”远洋集团新技术引领大会如期召开,大会围绕“大智云物移”(大数据、智能化、云计算、物联网、移动互联网)等方面,主要介绍了新技术在房地产领域及人们日常生活中的相关应用