今天很高兴能与大家分享下我们公司建设数据中心的一些经验,我的题目是从企业级数据中心向社会化数据中心演变之路,在这里我介绍的数据中心主要是从应用层面来讲,而不是IDC的基础设施,演讲主要分四个方面。
企业数据中心建设之路
关于如何建设企业数据中心,也许大家认为这是一个老生常谈的问题。首先要重视数据的价值,对于现代企业来说,客户资源和人力资源价值大家认为是十分重要的,在每个企业都在寻找核心竞争力之时,越来越多的企业已经从技术层面、管理层面、战略层面开始重视数据价值的发现,但往往数据的价值还没有得到足够的重视,还没有完全发挥出来。
国外有媒体报道称:个人数据将来是新时代的石油,并把这种石油比喻为当今时代的货币。这样的讲法是完全不过分的,足以体现个人数据的重要性。有一个关于沃尔玛的经典案例,沃尔玛是最早通过利用大数据而受益的企业之一,一度拥有世界上最大的数据仓库系统。通过对消费者的购物行为等非结构化数据进行分析,沃尔玛成为最了解顾客购物习惯的零售商,并创造了“啤酒与尿布”的经典商业案例。两个看似风马牛不相及的产品,但却关联在一起,是现代电子商务中的商品和购物车的关系。此案例在具体的商业营销实践中是非常有研究价值的。
企业在建设数据中心的时候,我们总结了“3W”定律即:Why,How,What,提供给大家正在做数据中心和将要作数据中心时做参考。首先要考虑为什么要建数据中心(Why)。随着公司总部建设的集中化系统越来越多,在实际管理中,集中化系统在总部以及同样会对公司层面形成很多孤岛,可能这些孤岛不是完全没有业务联系,只是业务联系没有建立起足够的关联关系,因此建立数据中心是集中化管理的必然。
其次是分离的诉求,有些系统比如生产系统,如果要去抓取数据会影响到实时性,这就需要将业务系统和分析系统做拆分。
第三个原因是数据的统一,一个公司发布的数据,如果从某些渠道发布的数据不一致,那么会带来较大的影响。对证券公司来说,如果营业部说今天发布某一只股票可以买,而总部却说可以卖,那这个数据就产生了很大的问题。
第四个原因是业务创新,在信息挖掘的价值上,越来越有较突出的体现。去年有报道介绍,美国印第安纳大学与曼切斯特大学共同研究出一种算法,可以从新媒体Twitter中抓取信息,采用舆情分析模型,能够提前2至6天预测道琼斯工业平均指数的走向,准确度高达87.6%。由此设定一个对冲基金,这个基金现在开始推向市场。所以通过这种数据挖掘可以促进业务创新。
最后是提供公司的经营管理提供决策的依据,我们知道决策的依据是要有智慧的,但从数据上升到智慧层面中间要经历四个阶段,分别是从数据到信息、从信息到知识、知识的积累、产生决策。以上考虑的要点是每一位信息化负责人都需要特别关注的,在建设数据中心时都要有比较好的立项铺垫,不然在建设之初就无法得到总部的预算审批。
定律的第二条是怎样建设数据中心(How),首先数据中心一定要是高效的平台,即数字化处理效率高,满足业务处理的及时性;其次要尽量选择比较成熟的平台,因为技术的发展往往领先于业务,如果我们对技术掌控得不够好的话,在最初建设的时候会出现很大的问题,因此必须要选用相对比较成熟的平台。第三数据模型也是非常重要的,对证券公司来讲,对客户的定义由来已久,一般是指在证券公司来做交易的客户,如果在数据中心把客户做为一个模型建立进去,那会造成扩展性的问题,以前的系统是只满足在证券公司来做交易的客户,而如果把外部的潜在客户也拉到系统,那么数据模型就无法支持。因此在建设过程中,应充分考虑这三方面,同时还要知道,这是一个持续推进演变的过程,也是漫长的。
定律第三条是数据中心要做什么(What),这点一定要想清楚,坚持以客户为中心,实现对业务的有力支撑的目的,做到对业务过程的中间数据的整理,将来提供用户分析性数据,并经过不断的业务创新,实现提供对管理决策的依据。
只有掌握了以上三点定律,才能有力推进数据中心的建设。我们公司推进数据中心的历程要从2008年开始,当时由于业务的发展,从对数据处理的理解还不够充分,使得实际操作比较艰难,但我们知道是必须要做的,因此经历了不断地沟通,让项目顺利地推进实现。目前数据中心已经建设有三期,第一期是数据中心的基础,把公司日常用的报表都放入进来。到第二期,已经完全实现可以为公司的所有系统提供数据支持。从去年开始的第三阶段,实现了非结构性的数据处理工作。
数据中心的架构,主要分三层,前端是数据源,中间是原始层,第三是核心层。我们知道,在信息化建设过程中使用什么工具不是很重要的,关键是团队能掌握多少,实现有效利用相关工具对业务进行支撑。公司的数据仓库是在2008年建立的,是中国大陆本土第三家使用Greenplum系统(当时Greenplum还没有被EMC收购),其他两家是淘宝和网络营销商,当时选用该系统是十分冒险的,但从现在实际使用可以证明是非常有价值的。
ODS是提供处理实时性非常高的数据服务,对于需要进行分析类的就放到仓库内提供,同时通过我们自己开发的管理平台,实现把Bi嵌入里面。大家知道,让普通用户用专业化的BI工具是比较困难的,因此一定要为客户包括自身内部用户提供一个比较好操作的界面来用,但对于高级用户来说可以经过培训利用BI工具进行挖掘分析。数据服务平台通过各渠道工具提供相关支持和服务。
目前民族证券是国字头的证券公司,属于中型企业,数据量不算太大,主要两个节点,分MasterNode和SegmentNode。MasterNode提供建立与客户端的链接和管理,实现SQL的解析并形成执行计划,执行计划向Segment的分发,并收集Segment的执行结果,但Master不存储应用业务数据,只存储数字字典。SegmentNode提供业务数据的存储和存取,实现用户查询SQL的执行。并且,我们选择服务器本着物美价廉的原则,投入产出比非常高,因此得到了监管部门的好评。
WikIT时代–开放、有序创造价值
在这里,我提出一个概念–WikIT提供一个开放、有序创造价值的时代。大家都知道,互联网技术的应用发展到今天,人们通过这个开放的环境进行写作,通过娱乐、交流和交易,形成的一种新型的关系,这样一种新型关系所潜在的巨大的社会价值我们所忽略,而去挖掘这里的金矿,就是维基-IT(WikIT)的内涵。
网络每时每刻都在产生着大量的数据,以前很多招聘都是通过网站实现,但对大型招聘网站来说,每天收到成千上万的简历,需要大量人员对简历进行判断,而这样开放又无序环境下产生的数据是没有价值的。什么才是有价值的呢?比如通过facebook进行招聘,通过关系的传递,招聘人员可从熟人介绍,通过信息过滤,免去第一道过滤的人力成本。正是通过facebook这样的开放环境,创造了一个有序创造价值的环境,从而获得价值。另外开放的环境也是会倒逼出来的,前段时间的3Q大战,结果到后来双方只有都开放出来,因此在当今互联网环境下,在Wiki的IT生态圈,只有提倡开放的环境,才能实现互利互惠,共同生存,才有更多机会获得数据,特别有价值的数据。
另外再提出一个词语是Prosumer,以前在商场买完东西后交易活动就结束了,但在现在的WiKIT时代,消费者也是一个生产者,数据量的产生也越来越多。比如我在微博上看到一个有兴趣的短消息,我会转发,这样的转发动作就是生产数据的过程,因此进入了大数据BigData时代。我们最初涉及到大数据是从三个维度来考虑的,即3V原则:多样化(variety)、容量(volume)和速度(velocity)。IDC表示,首先必须成本低廉特征,其次是满足多样性、容量和速度这三个标准中的两个。
企业数据中心的开放之路
从传统过渡到大数据该如何实现,企业级数据中心的架构扩展性也非常好,但遇到大数据,我们该如何面对?现在有很多公司不一定采用商业化的产品而利用自己开发的模式,也能实现高效运营发展。
在企业级数据中心逐渐开放的道路上,第一个例子是微博的应用,在证券行业中包括银行,已经开始用微博来支撑营销和管理体系,如招商银行就拥有一个专门的团队在新浪上建立了官方微博。因为是完全开放的平台,风险控制必须要依靠人力和一定的操作能力,所以微博也分很多层次,有官方微博、营销微博,还有危机公关,形成一个闭环,从而也会产生很多管理成本。
还有很多公司考虑成本,在自己网站上建立微博,虽然控制比较容易,但无法享受到新媒体带来的巨大流量。因此有种方式是逐渐将微博放开,既保证安全性问题,能实现有利监控,也能在常用的社交平台上去获取信息,实现两者的有机结合。但同时这样的思路对于CIO们来说一定要考虑技术上的实施,避免技术剩余,并有循序渐进的前进思想。
一旦企业数据中心往开放之路上走,一定要明确几个问题。首先考虑是否要上大数据系统?第二是否要马上上大数据系统?区别与前者,一个是要不要上,一个是是否马上上,都是很重要的。另外,上了大数据系统是否需要把所有数据进行存储?还是分别处理。明确是否要开源的,就要根据自身的实际情况来解决。第三个问题是用大数据系统解决什么问题?不能跟风,而要从客户和业务的需求出发来做。
目前民族证券的数据中心三期,主要实现了从网站和公开的SNS媒体上抓取信息,通过相关的业务模型,解决某类业务处理。
在接下来,当我们业务积累到一定程度,会把平台进行升级。基于现在的模式,跟Hadoop对接是相当容易的,因为在这样模式里,从Greenplum数据库对接,只需要以外部表的方式进行关联,就可直接进行处理,编程人员利用一般的SQL编程语句就可以处理和控制。如果对下面的HDFS比较熟悉,可以用MapReduce直接对下面底层进行操作,而且是开源的。去年EMC推出的企业版对底层进行重新分析,据说效率提高一两倍,如果实现将带来很大影响。如果互联网公司进行很多非结构化处理,也会很容易实现跟现有系统进行对接,关键是要选择比较合适的模式。
问题与探索
数据中心在开放之路上,在实现IT建设过程中往往会遇到系统运维和运营的误区。两者是不同的,所谓运维,是在建设中业务与技术是分离的,业务部门提需求,IT部门负责建设,这样会产生一种段墙,如果业务部门没有需求,IT部门就按部就班地运维下去,但从现在IT日益发展来看,这些模式只有在非常熟悉IT或有深厚业务背景的人员前提下。同时前面讲到的利用新媒体进行创新,如何把自上而下的方式改变成自下而上的方式,就要有一定的运营概念。
因此一个好的数据中心是需要有专门的小组和团队来运营的。比如分析数据模型要一直有人去做,不是简单的满足客户提出的需求,而要做到平时不停地挖掘和分析,才能实现从数据到信息,从低层次把数据存储为信息,较高层次实现把某些数据变成知识,再高级的数据科学家能转化为公司某些业务可扩展和发展的手段,这些都是需要有团队持续不断地运营和发展起来的。
近年来很多公司已经逐渐了解到数据运营的重要性,开始进行第二轮的电子商务尝试。不同于2000年左右很多公司建立电子商务部,当时的目的只是有互联网就行,而现在是如何利用互联网的交易工具转化成价值。相比而言,现在数据多了,工具也有了,但如何使用,公司之间是有差异化的,所以如何运营好坏是对公司核心竞争力是有直接影响的。
另外一个问题是敏捷管理,这个概念最早是从业务开发提出来的,有了需求如何应对业务地不断变化,也是业务部门和IT部门矛盾最冲突的,往往业务部门开始提的需求不完整,过几天又有新需求,于是IT部门拼命的跟着业务部门走,这也是对我们的架构的巨大考验,所以要在整个过程中要引入敏捷管理。敏捷管理不仅适用在IT架构实现敏捷性,而且是从管理层面来考虑的。目前互联网公司这方面做得比较好,其面对的用户群是上亿的客户群,如果UI做得不好,用户提的需求如果不改,他可能以后就不来看网站了,因此需要不间断的满足需求,变更的周期也越来越短。在未来,改变以前很多外部人员看着一个技术开发人员挖地的情形,成为手牵手模式,实现业务与技术完全分不开。
最后再讲下云计算、大数据和移动应用这三部分我的体会。2011年是“拨开云雾见晴天”的过程,虽然实现落地的有,但很少。2012年的开始我认为是“化云为云待落地”的过程,现在真正在国内的云落地应用已经有不少,据了解华为已经投入了一万人的团队来做,相信在今年下半年云落地应该指日可待。同时中国跟欧美模式不一样,美国是悄悄在做,我国是政府大力推动,在整个云过程中会有分水岭。
云计算、大数据与移动应用要注意三个要素:第一是通过开源的方式,将企业级的数据中心,升级为社会化数据中心,一定要有应用层面的,满足开放时代的大数据的3V特性;第二是结合相应的移动应用,提升客户体验效果,现在越来越少的人会用PC机上网,更多的人是用手机和ipad来上网,因此移动应用一定是客户密切相关的落地应用,证券公司也非常重视这个移动应用。第三迁移到云端是一个逐步的过程,这个过程要有两个前提,即标准化和产业化,迁移到云端,如果没有标准化就会产生很大的成本,而不是随着用户增加的安全成本,是要形成产业化的服务,最终再提供给客户。
最后强调一点,在开放时代要面对更多的新数据处理,将数据中心应用到业务中来,这是一个很自然的演变过程,但每个公司都要根据自己的实际情况去做,从企业的需求出发,随需而变,切实解决企业的投入成本,运维成本,提供优质的全方位解决方案,才是用户切实需要的。
我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。
我原创,你原创,我们的内容世界才会更加精彩!
【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】
微信公众号
TechTarget
官方微博
TechTarget中国
相关推荐
-
2018年Gartner Catalyst大会:未来没有数据中心?
其他企业能否像Netlfix那样—在没有数据中心的情况下运营?这是Gartner公司研究副总裁Douglas […]
-
云计算的下半场:从颠覆到传统 数据中心迎挑战
何宝宏博士表示,未来十年,云计算将从一个颠覆性产业逐渐转换为传统行业,与此同时,边缘计算等‘衍生品’正在兴起。云计算正在把整个行业和整个系统的复杂性,从用户手里的终端迁移到云端和数据中心。
-
华为跻身全球IT主流厂商
对于华为来说,从一家成功的CT公司转为ICT公司需要多久?在回答这个问题前,大多数人先要询问如何定义“成功”二字。从华为2015年所披露的业绩来看,其上半年销售收入达到了1759亿人民币,同比增长30%。
-
VCE CEO:融合基础架构市场前景巨大
VCE公司 的CEO Praveen Akkiraju认为,随着融合基础架构产品的普及,将会推动网络,存储和虚拟化技术的发展,数据中心专家的需求也会越来越多。