布局数据分析与人工智能 英特尔如何将理想拉近现实?

日期: 2017-07-30 作者:杨旭 来源:TechTarget中国

步入万物互联时代,海量数据催生的大数据分析、人工智能、机器学习等技术,已经像云计算一样,不再只是那些领先企业或者对新兴技术感兴趣的企业的专属了,这些前沿技术部署已经开始普遍涌入企业。

大数据时代,计算能力已经成为企业核心竞争力。久在数据分析与人工智能领域深耕的英特尔公司,最新发布的英特尔至强可扩展处理器可以更快速地运行更复杂的数据分析应用,包括人工智能。结合相应的软件优化,大数据工作负载的基本性能可以提升2.7倍。

硬件升级加上软件优化,只是英特尔在数据分析应用和人工智能领域努力的一个方面。英特尔公司软件与服务事业部副总裁兼系统技术和优化部门大数据技术总监马子雅在最近的英特尔+Cloudera数据分析与机器学习联合媒体沟通会上表示,“英特尔在数据分析应用和人工智能方面的承诺从来没有改变,那就是给客户最佳的用户体验。”

英特尔公司软件与服务事业部副总裁兼系统技术和优化部门大数据技术总监马子雅

英特尔公司软件与服务事业部副总裁兼系统技术和优化部门大数据技术总监马子雅

她表示,英特尔的工作主要集中在三个方面:一是通过硬件的升级和软件优化来推进技术民主化;二是为新兴的需求,比如深度学习等,提供新兴的解决方案。三是与客户合作,推动创新,为客户解决最新、最复杂的问题,来帮助客户最大化其商业价值。

秉承用户体验至上的理念,在硬件方面,英特尔的目的是给客户多种选择:至强、至强融核、FPGA,以及即将推出的 Nervana的加速处理器Lake Crest;在深度学习的框架层面,经过英特尔优化过的数学核心函数库集成到流行的深度学习框架里,比如Neon、Caffe、TensorFlow、Torch、Theano等,用于提升框架性能,让客户可以直接使用这些优化过的深度学习框架。在应用程序层面,目的是让用户可以比较简单高效生成深度学习的解决方案,不需要太多了解底层具体的细节。

将理想拉近现实

但是,随着人工智能、深度学习等技术部署实践的普及,企业发现了理想与现实之间的巨大差距。通过与客户的沟通与交流,英特尔发现,性能并不是客户最大的痛点,其实客户真正的痛点在四个方面:

第一,面对海量数据,企业希望将人工智能直接部署在现有的Hadoop、Spark大数据平台,而不是作为一个独立的功能存在;

第二,传统的深度学习系统架构通常是单节点或双节点的,而企业用户更希望将深度学习在集群上进行扩展,采用分布式模式。目前的做法是将Spark和Caffe、TensorFlow结合,即让深度学习框架跟Spark的可扩展性结合,但是这种方法忽略了一个事实:不管是Caffe还是TensorFlow,它们本身并不是为扩展性或者Spark而设计的。因此无法实现预想中的数据并行及模型秉性,也就根本无法做到真正的分布式的深度学习。

第三,用户希望能够通过“在已有的集群上直接添加深度学习功能”,以此来降低深度学习的代价。

第四,是目前最受关注的高性能,比如缩短模型训练的周期,加快深度学习的速度,快速的读取数据等等。

“这就是我们推出BigDL的关键原因所在。”马子雅说。去年年底,为了降低企业用户使用深度学习进行数据分析和构建人工智能应用的门槛,英特尔开源了基于 Apache Spark 的分布式深度学习框架BigDL,为整个数据分析和机器学习过程提供比现有框架更加统一和集成化的体验,进一步帮助用户减少端到端的学习延迟,实现总体拥有成本的降低。

BigDL将常见的深度学习框架同Spark结合之后,优势主要集中在:第一,BigDL本身的深度学习功能与已有的深度学习框架功能(例如,Caffe、Torch、TensorFlow等)是完全一致的,因此实现了非常丰富的深度学习功能;第二,它能够无缝结合Spark和Hadoop,与分布式数据、海量的数据进行结合;第三,它能够非常自然地利用Spark的可扩展性做到数据并行,例如可轻易扩展到上百个节点;第四,由于BigDL可在已有的集群上直接生成深度学习,用户免去重新构建集群,因此成本大大降低;第五,在性能方面,利用英特尔优化过的数学核心函数库,或多线程优化方法,性能得到显著提升。

据悉,即将发布的新版本中,BigDL加强对Python API的支持,尤其是对支持载入Caffe、Torch、TensorFlow的预训练模型,另外还会有更丰富的RNN的支持,最终提升客户的整体体验。

合作创收

除了跟最终端的客户合作,英特尔也非常注意跟合作伙伴的合作。这些合作伙伴中包括大型云计算公司,如微软,亚马逊和阿里巴巴。也有软件巨头,如Cloudera在最新发布的Data Science Workbench中,已经将BigDL进行集成。

英特尔一直与Cloudera保持深入和密切的合作,取得了众多显著成绩。例如两者合作对Hbase 非堆存储的读操作进行优化后,性能提升到5.6倍,优化成果被阿里巴巴使用,在没有增加任何硬件成本,纯粹只是通过软件优化的情况下,在“双11”的时候把HBase的Throughput提升了30%,吞吐量提升了30%。

另外,通过与Cloudera合作的解决方案,将MKL应用到客户的Spark机器学习的工作负载,性能提升了4.3倍。“到目前为止,所有的软件优化代码我们全部都贡献给了开源,它也已经包含在最新的Cloudera版本中,”马子雅表示。

双方合作推出的数据分析解决方案已经在金融、电信、交通等不同行业获得成功部署,印证了双方在数据分析领域的强劲实力。

Cloudera联合创始人兼首席技术官Amr Awadallah

Cloudera联合创始人兼首席技术官Amr Awadallah

“我们正处在人类历史上最伟大、最重要的一次转型,那就是决策的自动化,它的重要意义绝对不会弱于先前出现的工业革命,而在这次的浪潮之中,我们和英特尔密切合作来推动这样的浪潮向前发展。”Cloudera联合创始人兼首席技术官Amr Awadallah表示,“希望借助双方在硬件创新、软件优化、行业洞察等多个方面的整合优势,持续地为企业数据分析、人工智能等提供性能最好、最稳定安全的应用环境。”

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐