人工智能偏差的发生以及IT专业人员应该怎么做

日期: 2018-09-04 作者:Brian Holak翻译:邹铮 来源:TechTarget中国 英文

人工智能系统变得越来越好且越来越智能,但它们是否已经可以为我们人类做出客观的预测、建议或决策呢?Gartner公司研究副总裁Darin Stewart在2018年Gartner Catalyst大会中表示,事实并非如此。

Stewart指出,人工智能普遍存在偏差。这些AI偏差往往源于开发人员和设计人员在开发算法和训练模型时设置的优先级。

当模型根据敏感或禁止的属性(例如种族、性别、性取向和宗教等)做出预测、建议和决策时,AI就会产生直接的偏差。不过,通过正确的工具和流程,我们可非常容易检测和预防直接偏差。

根据Stewart的说法,防止直接偏差需要对输入进行情境测试,在训练模型时关闭每个敏感属性,然后测量对输出的影响。这里的问题是机器学习的基本特征之一是补偿缺失的数据。因此,与敏感属性非常关联的非敏感属性将被更多地加权以进行补偿。这由可能导致 – 或至少强化 – AI系统中的间接偏差。

人工智能在刑事判决中的偏差

这种间接偏差强化令人痛苦的现实生活例子是刑事司法,因为目前美国多个州正在采用名为Compas的人工智能量刑解决方案。该系统会获取被告的资料文档,并根据被告重新犯罪以及对社会构成威胁的可能性生成风险评分。然后,法官在判决时会考虑这些风险评分。

对该AI系统相关的数千个不同判决的调查研究发现,与白人相比,非洲裔美国人被错误地归类为高风险的可能性高出77%。相反地,白人被告被错误分类为低风险的可能性高出40%,他们然后会重新犯罪。

尽管不是基础数据集的一部分,但Compas的预测与种族高度相关,因为地理和教育水平等非敏感属性被给予更多权重。

但这意味着你在重新引入和强化间接偏差。如果你对每个敏感属性都有单独的分类器,那么,你就会重新引入直接偏差。”

IT专业人员解决这个问题的最佳方法之一就是在一开始就确定可接受的差异化阈值,然后根据它来衡量每个值。如果超过阈值,则从模型中排除。如果它低于限制,它将包含在模型中。

Stewart称:“你应该利用这些阈值,这些公平的衡量标准,作为对训练过程本身的限制。”

如果你正在创建“会对某些人的生活造成重大影响的人工智能系统”,你需要让了解做出相关决策背后原理的人参与进来。

背景知识是关键

Stewart还警告IT从业者在使用历史记录训练AI系统时要谨慎。AI系统被优化为匹配先前的决策以及之前的偏差。他提到美国俄勒冈州波特兰市“红线”种族主义做法(从1856年到1990年为合法),即阻止有色人种在某些社区购买房屋。Stewart称,房地产中使用的AI系统可能会恢复这种做法。

Stewart指出:“即使法律发生变化,不再允许这些偏见做法,仍有144年的先例数据以及大量基于金融活动的管理解决方案应用这些历史记录。”

为了避免人工智能中存在这种偏见, IT专业人员应密切关注其训练数据的背景知识。

Stewart称:“这超出基本数据做法,你不只是在寻找损坏和重复的数值,你还要寻找模式,寻找背景知识。”

如果IT专业人员使用非结构化数据,文本分析是最好的选择。这可帮助他们发现他们无法发现的模式。理想情况下,IT专业人员在搜索偏差时应该有一个“忌讳条目”列表。

Stewart称:“当模型中出现异常情况时,制定一份可疑结果清单,这将是需要进一步调查的对象。”

故意在AI中引入偏见

是否有IT专业人员想要向AI系统引入偏见的情况?虽然考虑这种可能性很奇怪,但如果有人引入偏见来纠正过去不公平的现象,那么可以这样做。

他表示:“如果是合法的道德目标,则是完全可以接受的。两组之间存在巨大差异是正确的结果,但如果你看到在自然过程中没有反映这种情况,你可以在算法中引入偏差并优化它以最大化某一结果。”

例如,在人工智能系统中引入偏见可用于纠正某些行业的性别差异。他认为,有目的地将偏差引入AI算法的唯一附带条件是记录它并对你正在做的事情保持透明。这样,人们就知道算法内部发生了什么,如果突然事情转移到另一个极端,你知道如何切换回来。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

翻译

邹铮
邹铮

相关推荐