下载客户端

苹果发布首篇人工智能论文：靠模拟+无监督学习改善图像识别

澎湃新闻记者王歆悦

2016-12-27 19:02

来源：澎湃新闻

近日，苹果一改往日神秘的作风，发布了公司历史上第一篇人工智能方面的学术研究论文，探究改进计算机视觉系统识别能力的方法，描述了如何训练计算机视觉算法使用合成的或计算机生成的图像，来识别物体的技术。此举标志着苹果正对其封闭式战略进行调整。

这篇论文题为“通过对抗训练从模拟的和无监督的图像中学习”，文章长达16页，由Ashish Shrivastava等六位苹果公司人工智能团队研究员撰写。尽管论文12月22日才在康奈尔大学图书馆系统中显示，但文章在11月中旬就已经被提交审阅。这说明苹果在12月7日宣布将允许其人工智能团队发布研究论文前，就已经开始酝酿此事。

在机器学习研究中，与单纯依靠真实世界的图像来训练模型相比，使用合成的数据往往更为高效，因为计算机生成的图像通常是被标记的。比如说，合成的图像往往已经对一只眼睛或一只手的照片加上了“眼睛”或者“手”的注释，而真实世界眼睛或手的照片对于算法来讲是一样未知的东西，还需要通过人类操作员进行描述和标注。

精炼器网络的对抗性训练算法

苹果的论文也指出，完全依靠模拟的图像来训练模型可能会让结果不尽如人意，因为计算机生成内容有时不足以达到精确学习的真实性标准。因此，苹果提出了一种“模拟+无监督学习”（Simulated + Unsupervised Learning）的新方法，来提高合成训练图片的质量。

模拟+无监督学习（Simulated + Unsupervised Learning）将未加标签的真实图像数据和加注释的合成图像结合起来，提高合成训练图片的质量。

在实际操作过程中，这种模拟+无监督（简称S+U）学习会将未加标签的真实图像数据和加注释的合成图像结合起来，使用无标签的真实数据从模拟器中学习能够提升合成图像的真实度的模型，同时还能保留其标注信息。这一技术很大程度上基于生成式对抗网络（Generative Adversarial Networks，GANs），这种网络主要利用两种竞争性的神经网络之间的对抗关系来工作——让生成器（generator）和鉴别器（discriminator）相互对抗，来更好地识别生成的数据和真实的数据。这一过程目前已经被验证在“超高分辨率”的图像生成时有所成效，其团队也指出，他们最终期望的结果是“探讨精炼的视频”。

苹果这篇论文的第一作者Ashish Shrivastava拥有马里兰大学的计算机视觉博士学位，其他成员包括Tomas Pfister, Oncel Tuzel, Wenda Wang, Russ Webb和Josh Susskind。其中，Josh Susskind联合创立了一个根据人面部表情来分析情绪的人工智能创业公司，今年早些时候，这一公司已被苹果收购。

苹果此次发布第一份人工智能论文对于公司来讲是迈出了重要的一步。多年来，苹果的神秘不仅一直被人工智能研究社群诟病，还为其招纳人工智能方面的人才设置了障碍，有很多想要自己的研究成果被同行看到并认可的人才，可能就会选择不去苹果。

相比之下，谷歌、Facebook和微软等公司的机器学习研究团队不断壮大，每家公司都发表过上百篇论文，在业界树立口碑、增强影响力的同时，获得同行的评估与修正，形成良性循环。

在科技界越来越多推动开发高端人工智能软件的今天，苹果从摄像头的适配、数据中心的网络服务到Siri、自动驾驶车平台的开发等，都离不开人工智能，此次的开放之举对于公司该板块的发展来讲也是必要之举。

澎湃新闻报料：021-962866

澎湃新闻，未经授权不得转载

我要举报