技术揭秘:阿里云人工智能ET魔术秀背后的秘密

日期: 2016-11-10 来源:TechTarget中国

11月10日晚的天猫双11狂欢夜晚会上,阿里云人工智能ET作为压轴大戏登场,为全球观众上演了一场科技魔幻秀。华少邀请现场5名观众从32张扑克牌中抽取5张牌,向ET发起“隔空猜物”的挑战:准确猜出观众手上的牌是什么。理论上随机猜对5人的扑克牌是一个成功率仅为1/ 24165120的“不可能的任务”!

然而,结局大家都看到了,ET准确无误地报出了5位观众手上牌的花色和点数,全场震惊。

其实ET并不是真的有“读心术”,而是利用了一个名为De Bruijn序列的数学方程式,再加上强大的人工智能技术,才完成了这场完美的表演show。

De Bruijn序列的原理很复杂,这里不详述,感兴趣的可以上网搜索下。但De Bruijn序列的结论很简单,就是从这样的序列中任意取出相邻n个数,它们的二进制排列一定不相同。这就意味着,ET只需将5名观众手上的黑牌和红牌(对应二进制里的0和1)按顺序出来,就只有一个唯一的解。

简单来说,将牌事先按顺序排列,不管怎么切牌,排序组合的可能性缩减到32种,然后根据下面这张图表寻找对应的排列形式,答案就呼之欲出了。

技术揭秘:阿里云人工智能ET魔术秀背后的秘密

如果一个普通的魔术师能完成这样的魔术(需要对上面这张表倒背如流),你了解真相后可能会惊叹他的记忆力。

但当一个人工智能表演这个魔术时,就不仅仅是记忆力这么简单了。

在这场魔术秀中,阿里云ET全面展示了语音识别、语音合成、自然语言理解、实时图像识别、机器学习等人工智能的综合能力。

比如在与华少的交流中,ET不仅能“听懂”华少的话并在屏幕下方实时打出字幕,还能给出相应的回复,对答如流。不仅如此,ET还“看出”了华少手中多出一副扑克牌。

节目中,被称为“中国好舌头”的华少在与ET的对话时刻意加快了语速,ET仍然准确无误实现了实时语音识别,并将字幕输出在屏幕上。这背后,是阿里云iDST技术团队研发的智能语音交互(Intelligent Speech Interaction)系统, 包含语音识别、语音合成、自然语言理解等技术。

而在ET识别黑牌的过程中,应用到的就是人工智能的图像识别技术。在观众抽取扑克牌时,ET已经完成了对5位观众的面部识别,并利用算法建立了器官轮廓定位,以便之后识别出是否有人转身。

目前,阿里云ET的人脸算法已经覆盖了人脸检测、器官轮廓定位、人像美化、性别年龄识别、1对1人脸认证和1对多人脸识别等多个方向,用机器学习的方法,包括卷积神经网络、Supervised Descent Method等,实现了高精度和高效的技术,人脸识别在LFW上识别率超过99.5%。

基于此,ET能够轻松识别出黑牌观众转身的动作,准确报出5名观众的手牌。过程看似简单,背后的算法和所需的大规模计算能力却并非一朝一夕就能炼成的。

无论是语音识别还是图像识别,阿里云ET的底层都依赖于深度学习算法以及大规模计算能力。一套复杂算法模型的训练往往需要千亿级别的样本数据,这就对背后的计算能力提出了很高的要求。

其实,ET能做的不仅仅是当个魔术师这么简单,借助深度神经网络等机器学习技术,阿里云人工智能已经具备利用数据为一整座城市提供思考和决策的能力,目前,杭州政府联合阿里云等13家企业,为这座拥有2200多年历史的城市安装了一个人工智能的杭州城市数据大脑,将杭州打造成一座能够自我调节、与人类良性互动的城市。在交通领域的试点中,ET通过对路口交通状况的预测调控红绿灯,使部分路段的车辆通行速度最高提升了11%。

人工智能正在以超乎想象的速度融入你的生活,其实ET已经成为你身边一个真正的魔术师了呢。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐