世界AI大会上的“黑猫”问题和数据谜题

日期: 2018-01-03 作者:Nicole Laskowski翻译:陈晓诚 来源:TechTarget中国 英文

一个盲人在黑屋里,寻找他的黑猫,他找不到它。他找了一个有视力的人来帮忙。他也找不到猫,但他比主人更困惑。由于屋里很黑,猫也是黑的,有视力的人不能推测猫不在屋里。

Dun&Bradstreet的Anthony Scriffignano和他的数据科学团队一直在研究这样的问题:他们搜索难以捉摸的数据 – 也许就在眼前,也许根本不存在。Scriffignano,金融服务公司的高级副总裁兼首席数据科学家,称它们为黑猫问题。

“这是我创造的一个术语,”他在最近的世界AI大会上接受SearchCIO采访时说。“在这个领域,我经常创造术语,”他打趣道,“因为我们正在谈论的很多东西,这些名词和动词都没有正式名称。”

解决黑猫问题要内心强大——你必须承认黑猫可能不在房间里。(事实上,Scriffignano说,解决黑猫问题的第一步就是停止抱怨。)在数据挖掘中,这些是不确定形状和大小的问题——新型的欺诈活动,下一位大客户是怎么样的——需要一个测试和学习的思维模式来系统地完成。可能是积极主动地探索数据,比如寻找新的犯罪行为(和安装烟雾探测器类似,Scriffignano说),或者对数据进行反应性的探索,比如调查一个事件是否会引发行为的改变。他说,无论是哪种情况,都可能一无所获。

Scriffignano团队反复遇到的黑猫问题之一,就是发现违法行为,比如身份盗窃。Scriffignano说,重要的是先要确定什么是身份盗窃,这样数据科学团队就有一个基准。然后,团队使用不同的工具来分类数据,分割数据并构建图形描述,Scriffignano表示“这是其中很重要的部分。”

欺诈者倾向于与其他欺诈者和某种类型的顾客(例如,容易受骗的顾客)进行互动,他们对不同的受害者都倾向于重复同样的行为。图表可以绘制人际网络中的关系和互动。对人际网络的分析,可以发现新的模式或者识别各向异性的区域 – 这是一个生物学领域的术语,意思是一组不寻常的关系和行为,Scriffignano说。

但是,识别各向异性的区域并不意味着发现欺诈行为。他说:“棘手的部分是,当你发现它,还不够。”行为可能并不违法,而是某种以前没有出现过的新行为。结果必须消除歧义,才有意义。这需要更多的假设和更多的测试,Scriffignano说。

在采取任何行动之前,数据科学小组将结果转交给熟练的专家做出最终决定。

他说:“在大多数情况下,我们寻找违法行为的技术水平,是将问题的复杂性降低到一定程度,这样真正有技能的人能完成任务。”也可能不能完成。

德勤的五个进展向量

AI尚处于早期阶段,但德勤公司的顾问认为进入门槛已经开始降低。他们已经编写了AI技术的“五个进展向量”,可以加速采用,并将其推向主流。这五个向量如下:

1.  自动化数据科学流程。德勤公司的总经理David Schatsky在世界AI大会上表示,大部分数据科学家所做的工作都是“繁琐的工作”。他们花了大量的时间准备他们想要分析的数据。现在,市场上的工具正在自动化这些步骤,使数据科学家更有效率,并让公司有机会同时进行更多的实验,Schatsky说。

2. 减少对训练数据的需求。机器学习的一个缺点是需要标记大量的训练数据,才能使模型起作用。Schatsky说:“一些公司没有足够的数据,或者数据是专有的,有各种限制。” 但新的技术可以帮助企业克服数据稀缺。一个是合成数据,是“由算法生成的,模拟真实数据特征的数据”,根据“Machine learning and the five vectors of progress”由Schatsky共同撰写的一篇文章。另一种技术被称为转移学习,使用AI将来自一个数据集的学习应用到新的领域。

3. 加快培训。训练机器学习模型所需的计算过程可能需要运行几个小时,几天甚至几个星期,才能知道模型是否起作用。Schatsky说,对支持模型培训的硬件的改进,使工程师能够“并行地完成工作,从而更快地完成循环。”

4. 解释结果。机器学习算法运行在一个所谓的黑匣子中:它们是如何得出结论的,是未知的。这对监管行业的管理者或监管业务中敏感领域的人来说,是一种屏蔽。但是,Schatsky认为,黑匣子问题 “正在逐步解决。”

5.本地部署。Schatsky说,不久之后,机器学习将被部署在移动电话和物联网设备的边缘,因为紧凑的模型需要的内存相对较少,和“全新一代的低功耗芯片。”

世界AI大会上的行动号召

“看到我们在这个领域所取得的进步是令人兴奋的,但是我想再次重申:这足够了吗?这是一个非常重要的时刻,AI领域的风险比以往任何时候都要高,当然AI带来的价值也很高。

“实际上只会有两个结果:AI达到预期,或者没有达到,而且失败。我相信在座的每一位- 都是这个领域的利益相关者 – 和我一样都希望AI能成功。如果我们希望AI取得成功,我们必须看清现实;我们必须理解这些算法是如何运作的,以及它们受到的限制。”——Palo Alto Research Center Inc.的CEO,Tolga Kurtoglu

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

作者

Nicole Laskowski
Nicole Laskowski

Nicole Laskowski is a senior news writer for SearchCIO.com and SearchCIO-Midmarket.com. She covers CIO strategies for analytics, business intelligence and data management. Prior to joining TechTarget, she worked as the news editor for a community newspaper in Arlington, Mass., overseeing the news content of both the weekly print publication and the newspaper’s website. Nicole also has worked for two other community newspapers in Oregon and Michigan and brings 10 years of writing and editing expe

翻译

陈晓诚
陈晓诚

TechTarget中国兼职翻译