构建数据科学管道:优势和注意事项

日期: 2018-07-10 作者:George Lawton翻译:邹铮 来源:TechTarget中国 英文

企业正在部署数据科学管道用于人工智能、机器学习和普通旧式统计学。数据科学管道是指一系列处理数据的做法,它可帮助企业在数字化快速发展的经济环境中提高竞争力。

但在首席信息官(CIO)采用这种方法前,应该考虑数据科学开发工作流程和传统应用程序开发工作流程之间的关键差异。

数据科学开发管道用于构建预测和数据科学模型,其本质是实验性的,并不总是与其他软件开发过程相同,例如Agile和DevOps。由于与传统IT应用程序相比,数据科学模型是以不同的方式打破和失去准确性,因此需要仔细审查数据科学管道以确保模型可反应企业希望实现的目标。

近日在旧金山举行的Rev数据科学领袖峰会上,专家们探讨了其中一些重要区别,并详细阐述了IT领导者可负责任地实施数据科学管道的方式。最重要的是,数据科学开发管道需要问责制、透明度和可审计性。此外,CIO们需要部署机制来解决模型随着时间退化或者说“模型漂移”的问题。对于数据科学管道,构建合适的团队也很重要:数据科学通才最适合在早期阶段发挥作用,而专家则可为更成熟的数据科学流程增加价值。

穆迪公司的数据科学

CIO们可能会希望从金融分析巨头穆迪公司(Moody’s)得到一些启示,穆迪公司是利用预测模型来评估债券和投资组合风险的早期先驱。穆迪公司分析总经理Jacob Grotta称,该公司已经简化其用于创建模型的数据科学管道,以便能够快速适应不断变化的业务和经济情况。

Grotta称:“在新模型刚刚构建好时,它具有最佳性能,随着时间的推移,性能会逐渐下降。”模型性能下降会产生重大影响。例如,在金融行业,不能准确预测抵押贷款违约率的模型会很快使银行处于危险之中。

注意假设

Grotta称,重要的是要记住,数据科学模型是基于其背后的数据科学家的假设来创建。在2008年金融危机爆发前,一家公司向Grotta提出新的模型来预测抵押贷款衍生品的价值。当她询问如果房屋价格下跌会发生什么时,该公司回应称该模型预测市场不会受影响。但他们并没有任何数据支持这一点。据估计,当时这些错误导致近14万亿美元损失。

企业的期望通常是有人了解模型的原理及其固有风险。但即使是对于最准确的模型,这些未经证实的假设也会制造盲点。Grotta称,好的做法是针对这些盲点构建多道防线。

第一道防线是鼓励数据建模者坦诚交代他们知道什么和不知道什么,并明确他们被要求解决的问题。Grotta称:“这对人们来说并不是容易的事情。”

第二道防线是证明和验证。模型证明包括检查是否正确部署了模型,以及在编码时是否有错误。相比之下,模型验证是独立的挑战过程,可帮助开发模型的人识别数据中的假设。最后,了解建模者的假设是否准确的唯一方法是等待未来验证。

第三道防线是内部审计或管理流程。这涉及可向一线业务经理解释这些模型的结果。Grotta表示,他最近正在与一家银行合作,该银行抗议称其银行经理在不了解什么推动其结果的情况下不会使用模型。但他表示,这些经理的做法是正确的。拥有管理流程以及确保信息在企业上下流动非常重要。

加入问责制

随着时间的推移,模型会降级或者“漂移”,这是企业需要简化模型开发过程的原因之一。制作新模型可能需要数年时间。Grotta指出:“到那个时候,你可能不得不回过头去重建它。”因此每年必须重新验证关键模型。

为了应对这一挑战,CIO们应该考虑通过可审计、可重复和透明流程来创建数据科学管道。这可为企业的模型开发带来迭代敏捷性,正如Agile和DevOps给软件开发带来的灵活性那样。

透明度意味着上游和下游人员了解模型驱动程序。它是可重复的,有人可重复创建它的过程。从某种意义上说,它也是可审计的,企业部署有程序来考虑如何管理该流程、接收新信息以及让模型通过监控流程。现在我们看到不同程度的灵活性,但Grotta认为,企业应该需要能够轻松地更新数据科学模型以保持竞争力。

如何应对模型漂移

数据科学平台供应商Domino Data Lab公司首席执行官兼联合创始人Nick Elprin认同,在构建数据科学开发管道时,模型漂移是必须解决的问题。在某些情况下,这种漂移可能是由于环境的变化,例如客户偏好或行为改变。在其他情况下,漂移可能是由于敌对因素造成。例如,犯罪分子采用新策略来攻击新型欺诈检测模型。

为了应对这种漂移趋势,CIO们需要采用一个流程来监控器数据模型随时间推移的有效性,以及建立阈值以在性能下降时替换这些模型。

对于传统软件监控,IT服务管理需要追踪CPU、网络和内存使用情况相关的指标。而对于数据科学,CIO们需要捕获模型结果准确性相关的指标。Elprin表示:“针对(数据科学)生产模型的软件需要查看它们从这些模型得到的结果,如果发生漂移,则应该引发警报来重新训练。”

数据科学推动时尚发展

在个人购物服务Stitch Fix公司,数据科学管道让其以全价在线销售服装。Stitch Fix公司首席算法官Eric Colson表示,通过各种方式利用数据科学让他们找到新的方式来增加价值,以对抗亚马逊等深度折扣巨头。

例如,数据科学团队使用自然语言处理来改进其推荐引擎以及购买库存。Stitch Fix还利用遗传算法,这种算法旨在模拟进化并在随机变化后迭代地选择最佳结果。这些被用来简化服装设计流程、提出无数迭代的流程:时尚设计师随后会审查这些设计。

然而,这种数字创新的可行性在于该公司创建了有效的数据科学管道。他补充说,同样重要的是,该公司数据科学团队被认为是Stitach Fix公司的顶级部门并直接向CEO报告。

专家或通才?

CIO们在构建数据科学开发管道的一个重要考虑因素是,招聘数据科学专家还是通才?专家擅长优化复杂数据科学管道中的步骤,而通才可在数据科学管道中执行所有不同的任务。在数据科学举措的早期阶段,通才能够更容易地适应工作流程的变化。

这些不同的任务包括特征工程、模型训练、增强转换和加载(ETL)数据、API集成和应用程序开发。为每个这些任务都可配备专家来提高性能,很具吸引力。Colson称:“在装配线可能是这样,但对于数据科学,你不知道你在构建什么,并且,你需要迭代。”迭代过程需要流动性,如果为不同的任务配备不同的人员,当发生更改时会需要更长的等待时间。

至少在开始阶段,企业可从通才中可获益更多。但在数据科学流程建立数年后,专才可能会更有效率。

确保数据科学与业务保持一致

Domino公司的Elprin表示,现在,很多数据科学模型在与正常业务运营脱节的孤岛中构建。为了使数据科学有效,它必须整合到现有业务流程中。这里需要将数据科学项目与业务举措保持一致,这可能涉及降低欺诈性索赔成本或者提高客户参与度等因素。

在效率较低的企业中,管理层倾向于从企业已经收集的数据开始,并想知道数据科学团队可用它做些什么。而在更有效的企业中,数据科学是由业务目标驱动。

Elprin称:“数字化转型需要企业自上而下的支持,这很重要。最成功的企业会想办法快速获得政治资本,毕竟这不是12个月的项目,快速获胜方可证明价值,并可获得更具体的参与度。”

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐