有很多普通中小企业,特别是中型的互联网和物联网企业,在大数据方面的场景也有很多。本文将首先给大家介绍一下在笔者眼中的大数据,以及大数据的意义和特点,再介绍一下大数据的常见处理流程,之后将会和大家分享一下笔者如何帮助一些中小企业实施大数据相关的解决方案,也就是大数据如何从“小”做起。
任何一个时代或者模式的兴起,都离不开与之相关的Killer App,比如,C/S时代的SAP ERP,互联网 1.0 时代的门户,以及互联网 2.0时代的搜索和SNS等,那么在当今云计算这个时代有那些Killer App呢?当然首先想到的肯定是以VMware 和Amazon EC2为代表的虚拟化和相关IaaS服务,除此之外,新近崛起的大数据绝对也是云计算的Killer App之一。不仅类似百度、阿里,以及腾讯这样的互联网巨头有相关的应用需求,而且根据笔者平时与客户的接触,发现有很多普通中小企业,特别是中型的互联网和物联网企业,在大数据方面的场景也有很多。本文将首先给大家介绍一下在笔者眼中的大数据,以及大数据的意义和特点,再介绍一下大数据的常见处理流程,之后将会和大家分享一下笔者如何帮助一些中小企业实施大数据相关的解决方案,也就是大数据如何从“小”做起。
什么是大数据?
过去计算机产生的数据较简单,基本上都是一笔笔事务,总量虽大,但整体增长幅度都还是可控的。比如传统的金融企业,经常使用几台大型机就能管理其所有的业务数据。而最近几年,由于以平板、智能手机和传感器为代表的智能设备越来越多,这些设备的生成的数据更是远远地超过我们的想象。据IDC的统计,全球数字信息在未来几年将呈现惊人增长,预计到2020年总量将是现在的44倍。据另外一份数据显示,全球 90% 的数据都是在过去两年中生成的,并且每年以50%的速度增长。每天,遍布世界各个角落的传感器、移动设备、在线交易和社交网络会产生PB级别的数据;每个月,全球网友会发布了10多 亿条 Twitter 信息和300多 亿条 Facebook 信息。那么这些大数据的存在有什么价值和意义呢?
大数据的意义
笔者个人和一些朋友一直觉得大数据就好比一口油井,因为里面蕴含着非常丰富的价值,如果企业能有效利用其内部存储的海量数据,那么将会改善其自身的产品和服务,从而提升客户和受众的体验,在大数据时代获取竞争优势。并且随着本身分析和挖掘技术不断的提升,可以在之前的基础上提供新的决策模式,从而支持管理者进行快速和精确地决策,这样能够超越对手,抢占市场先机。
以下的内容会通过几个行业来举例讲解一下大数据有哪些意义和作用?
互联网企业
有一些客户主要是做网络舆情或者网络广告方面的业务,他们每天都会处理和收集TB级别的日志或者网页信息,结构化和非结构化数据都有。他们就是通过分析这些数据来为其客户提供价值,比如分析一下一个男性护肤品广告是在世界杯期间投放好,还是在亚洲杯期间播出好?在电子商务方面,eBay是个很好的例子。其分析平台每天处理的数据量高达100PB,超过了纳斯达克交易所每天的数据处理量。为了准确分析用户的购物行为,eBay定义了超过500种类型的数据,对顾客的行为进行跟踪分析,并且通过这些分析促进eBay自身的业务创新和利润增长。
智能电网
我们有一个合作伙伴,他们是做智能电网相关的解决方案。对那些电网而言,如果无法准确预估实际电力的使用情况,将会使电网要求电厂发出过量的电力,虽然这些过量电力可以通过某种模式进行保存,但是大量的电力浪费已不可避免。而通过他们智能电网的解决方案,每隔一刻钟会采集一个省几千万用户的用电数据,之后他们会根据这些数据来精确分析用户的用电模型,最后通过这个用电模型来优化电力生产,从而有效地减少电力资源的浪费。
车联网
在车联网方面,有一家客户在一个城市有几十万台基于Android的终端,而这些终端每隔一段时间都会发送具体位置的GPS消息给后端的数据集群,接着这些集群会分析这些海量的GPS信息,分析出哪些路段在什么时候比较堵,之后将这些非常有价值的信息不断地推送给客户,从而帮助用户减少在路上所消耗的时间。
医疗行业
在医疗行业,大数据的用例有很多。首先,通过分析大量的病例信息,将有效地帮助医生治病;其次,假设在一个病人身体的多个节点加入探针设备,而且每个探针每天会采集GB级别关于人体细胞和血液运行状态的数据,之后计算集群可以根据这些数据来进行分析,这样能更精确地判断病因,从而让医生对病人进行更具针对性的治疗。
机器学习
在这方面,最出名的例子莫过于最近很流行的Siri,它后台有一个庞大的HBase集群来对类似语言这样的文本数据进行分析和管理,从而使Siri变成一位越来越老练的个人助手,为iPhone 4S的用户提供了日期提醒、天气预报和饭店建议等服务。除此之外,还有IBM的Watson,它通过一个基于Hadoop UIMA框架的集群来挖掘海量的文本信息来实现一定程度的人工智能,并在美国著名知识问答节目Jeopardy中战胜多位出色的人类选手。
国家安全
这方面最出名的例子,莫过于美国的联邦情报局(CIA)。在过去10年中,他们通过无人侦察机收集了大量阿富汗那边地理相关的视频资料,之后通过分析这些海量视频资料,来对极具危害性的恐怖组织团伙进行定位。
大数据的特点
大数据,不仅有“大”这个特点,除此之外,它还有很多其他特色。在这方面,业界各个厂商都有自己独特的见解,但是总体而言,我觉得可以用“4V+1C”来概括,“4V+1C分别代表了Variety(多样化)、Volume(海量)、Velocity(快速)、Vitality(灵活)以及Complexity(复杂)这五个单词。
Variety(多样化)
大数据一般包括以事务为代表的结构化数据、以网页为代表的半结构化数据和以视频和语音信息为代表的非结构化等多类数据,并且它们的处理和分析方式区别很大。
Volume(海量)
通过各种智能设备产生了大量的数据,PB级别可谓是常态,笔者接触的一些客户每天处理的数据量都在几十GB、几百GB左右,估计国内大型互联网企业每天的数据量已经接近TB级别。
Velocity(快速)
大数据要求快速处理,因为有些数据存在时效性。比如电商的数据,假如今天数据的分析结果要等到明天才能得到,那么将会使电商很难做类似补货这样的决策,从而导致这些数据失去了分析的意义。
Vitality(灵活)
在互联网时代,和以往相比,企业的业务需求更新的频率加快了很多,那么相关大数据的分析和处理模型必须快速地适应新的业务需求。
Complexity(复杂)
虽然传统的BI已经很复杂了,但是由于前面4个V的存在,使得针对大数据的处理和分析更艰巨,并且过去那套基于关系型数据库的BI开始有点不合时宜了,同时也需要根据不同的业务场景,采取不同的处理方式和工具。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
作者
相关推荐
-
洲际酒店集团与阿里云助推酒店业数字化转型
近日,国际酒店管理公司洲际酒店集团与阿里云在2018杭州云栖大会召开期间签署深化合作谅解备忘录。双方将强强联手 […]
-
数据和云计算对CIO工作的影响
近日笔者在报道云计算对首席信息官(CIO)的影响时,总是会得出相同的观点:CIO的工作已经不再是曾经的技术工作 […]
-
2018是人工智能之年
如果说人类的历史进步教会了我们什么的话,那就是真正的阶段性进展都不是来源于单一的技术突破,而是由同期的各种因素 […]
-
改写云数据库行业标准 阿里云自研的POLARDB到底有多厉害?
9月21日,阿里云正式发布了自研新一代商用关系型云数据库POLARDB。POLARDB采用第三代分布式共享存储架构,拥有6倍性能于MySQL,以及100%兼容MySQL的能力。