下载客户端

人工智能带来的科学革命：给科学家打下手，比博士生还高效

澎湃新闻记者虞涵棋

2017-07-12 07:40

来源：澎湃新闻

人工智能（AI）正在革命所有的行业，包括科研，这个看上去最“人类智能”的领域。不过，与忧心忡忡、担心被抢饭碗的卡车司机或数据分析师不同，科学家们看到AI简直两眼放光：人工智能的计算能力与工作效率不知比博士生高到哪里去了，还不用吃饭和睡觉，真是最理想的“压榨”对象。唯一的问题是，如果未来人工智能看得懂也写得了论文了，要不要加上它的署名呢？

近日，著名学术期刊《科学》上刊登了一系列报道，记录人工智能带给科学的革命。

大数据与深度学习

踏过各自的风雨历程，科研与人工智能在大数据时代这个路口，注定相遇。从千变万化的染色体与蛋白质结构、恒河沙数的宇宙星体数据，到互联网上每天批量诞生的文字视频，自然和社会科学家的烦恼终于逐渐从数据不够，演变为数据太多，多到超出人类目力和脑力的极限。

而在另一边，“深度学习”（deep learning）赋予了算法“智能”的雏形，恰好为大数据而生。在前深度学习时代，研究员们需要依靠自己的智慧建立某种关系，设定计算机如何由一个输入值，得出一个对应的输出值。深度学习则解放了人类：“喂”给程序大量相匹配的输入值和输出值，由程序自身摸索出其中的关系。

科学家们就亟待这种解放。对普通人来说神秘而高深的科研工作，其实包含了无数对海量数据的机械性处理，不仅枯燥，而且博士生的一个马虎，就可能毁掉一个团队几年的心血。

粒子物理

早在1980年代，粒子物理学家们就看上了人工智能。毕竟，粒子物理学家们很多时候在做的工作，就是一次又一次地把粒子放在加速器里对撞，期待在这些看起来很相似的实验数据里发现一点点不同的迹象——那可能就是新粒子的魅影。这个工作连篇累牍，枯燥透顶，却是人工智能最擅长的领域。人工智能善于通过给定的几个变量，从庞大的背景数据中找出有用的信号。

欧洲大型强子对撞机（LHC）

2012年，欧洲大型强子对撞机（LHC）终于“撞”见了预言中的“上帝粒子”——希格斯玻色子。这是标准模型中最后被发现的粒子，它的发现就有人工智能的一份功劳。毕竟，每对撞10亿次质子，才可能会产生1个希格斯玻色子，而它产生10^-22秒后就会衰变为其他粒子。不难想象，阅读这些数据，是怎样浩大的工作量。

正在解读LHC数据的神经网络来源：CERN（欧洲核子中心）

当然，在现阶段，人工智能只能这样给物理学家们打打下手，找找数据。具体怎么找，还是基于物理学家们对物理学的理解。但人工智能会变得越来越重要。在未来的几年内，欧洲大型强子对撞机的对撞速度将提升至目前的10倍。面对汹涌而至的数据，人工智能不可或缺。

寻找自闭症基因

尽管生物学家们不断通过基因解开疾病的奥秘，但自闭症却令他们有些为难。自闭症具有明显的遗传倾向，而目前找到的自闭症基因，只能解释其中20%的病例。更多的自闭症疑凶，藏在人类剩下的25000多个基因中。

美国普林斯顿大学的计算生物学家欧嘉·特洛杨斯卡娅（Olga Troyanskaya）收集了大量基因在特定人类细胞中活动的数据，比如蛋白质互动的方式，转录因子结合位点和其他关键染色体性质。她的团队运用人工智能，将已知自闭症基因的活动数据，与其他未知的基因对比，寻找相似性。他们最终找到了2500个疑似基因。

帮助自闭症患者来源：BSIP

不过，基因并不是唯一的凶手。遗传学家们最近才意识到，基因周围的染色体非编码片段也在助纣为虐。找出这些从犯，比找出自闭症基因本身还要困难多了，更需要人工智能的帮助。

大众心理

对于社会科学家来说，人工智能则是一把理性的钥匙，能解开隐藏在人类语言中的性格密码。

每天发在社交网络上的状态，是芸芸众生日常情绪的记号。但是，这些看似杂乱无章的数据，真的能成为照见大众内心的有用信息吗？美国著名心理学家马丁·塞利格曼（Martin Seligman），和他的同事们成立了一个“世界幸福项目”，试图透过社交网络数据捕捉公众心理和生理健康的信号。比起传统的问卷调查，这种方法廉价、自然，数据量也多，就是很杂乱——这就需要人工智能的帮助了。

研究员们使用了29000名做过线上自我抑郁评估的Facebook用户的数据。算法成功地在抑郁程度，和平时状态里使用的语言之间建立了关联。通过分析一个Facebook用户平时的状态，人工智能就能得出他/她的抑郁程度。

另一项研究则显得更令人惊奇：通过推特内容，人工智能可以预测一个郡的心脏病死亡率。这些隐藏在文字中的因素甚至比排在前10位的主流因素，比如抽烟与否或患糖尿病与否，更能准确地预测。

而得克萨斯大学奥斯汀分校的詹姆斯·彭尼贝克（James Pennebaker）发现，看一个学生申请入学时的文章，就能预测他/她的成绩。冠词和介词用得好的，分析性思维强，成绩一般比较好；爱用代词和副词的偏向于叙述性思维，成绩一般差一点。

硅谷里的人工智能

高校里的科学家们看到了人工智能这个优秀的劳动力，科技企业更不会错过这个商机。位于硅谷的生物技术公司Zymergen，就由人工智能承包了实验。

人类正在驱使各种微生物生产有用的成分：生物燃料、塑料、药品等等。而Zymergen的业务，就是通过改造微生物的基因，提高这些“劳工”的生产效率。

那么，如何找到那些可以提高生产效率的基因，并改变它们呢？Zymergen的员工金波尔（Kimball）举例说：“比如原来的微生物有5000个基因，每个基因你可以做出10种改变，那你就可以做出50000个变种。” Zymergen先做出1000种不同的变种，也许会发现其中25种的生产效率有那么一点点提高，那这25种就留待第二轮实验。

人工智能大大加速了这一过程。之前，人力每周大约能完成10次试验，而机器每周就可以完成1000次。

基因序列

当然，想要得到最好的基因变异并不容易，因为这不是一个简单的加法问题。你得到了25个有轻微提高的变异，如果把它们全加到同一个微生物上的话，那么你大概不会得到一个超强的微生物，而是病蔫蔫的微生物。这仿佛是在一个25维的坐标上寻找方向，计算机仍依赖人类判断力的导航。

目前，Zymergen能将目标微生物的生产效率提高10%以上。这听起来只是微小的工作，但依赖微生物发酵的化学产业规模达到每年1600亿美元，这10%产生的效益，比国家科学基金（NSF）的经费还要多。

“黑箱”

并不是所有科研人员都完全放心人工智能。一个博士生虽然会犯错，但他能思考并告知自己如何犯了这个错误。比起来，深度学习就是一个高效而沉默的黑箱。略显可怕的是，人类无法知道深度学习如何得出它的结论，因而也无从知道它是如何犯错的。

在过去，数据之间的特征是由开发者提取，并“教会”程序的。现如今，从海量输入值到海量输出值之间，人工智能到底提取了哪些特征，建立了哪些关系，都隐藏在一个黑箱中。视觉识别方面的主流“卷积神经网络”，就是将每一层提取的特征作为下一层的输入值，进而提取到更为抽象的特征。随着深度的增加，人工智能的输出越发趋向完美，但其中的“原理”也越发没有头绪。

打开黑箱的尝试已经演变成了一门新的学科。有些人试图窥探“黑箱”里到底发生了什么。华盛顿大学的马尔科·里贝罗（Marco Ribeiro），想要通过不断调整输入值，观察到底是哪些变化影响到了输出。譬如，不断调整一段电影评论文字，让一个文本分析的人工智能鉴定其评价是正面的还是负面的。而谷歌的研究员桑德拉拉杨（Mukund Sundararajan）则并非随机调整输入值，而是引入了一个空白干扰，一步步向目标值渐变，以观察输出值特定的“跳跃”变化轨迹。

另一些研究者则想绕开黑箱，开发一些效果媲美深度学习，但透明度更高的框架。微软的里奇·卡鲁阿纳（Rich Caruana）就被深度学习“坑”过。1990年代，他刚从卡内基梅隆大学毕业，加入了一个通过机器学习帮助肺炎患者的团队。通常来讲，普通的肺炎病患更宜在家休养，避免交叉感染，而那些带有哮喘等复杂病情的病患则应立即住院治疗。神经网络学习了78家医院提供的症状和结果数据后，出现了一个很难解释的漏洞：它建议那些带哮喘症状的病患回家。

为了绕开神经网络，卡鲁阿纳回到统计学中线性回归的老路，来寻找灵感。1980年代就存在的广义加性模型（GAM）不仅能处理简单的线性回归，也能通过复杂的计算，将更复杂的数据进行拟合。卡鲁阿纳运用机器学习方法升级了GAM。在图像和声音处理上，神经网络占有绝对优势。但针对所有能放进表格里的数据，升级版的GAM表现得都不差。最重要的是，这中间的运算都是透明的。

用GAM跑了一遍肺炎的记录，卡鲁阿纳终于找出了当年的漏洞是如何产生的：那些患上肺炎的哮喘病患常规上会被医院安排进重症监护病房，重点治疗，而人工智能只看到了病人病情的迅速好转，因此建议病人回家。

最后，还有一部分研究者即不想法设法窥探黑箱的内部，也不会绕开黑箱。他们专心让“深度学习”更深度，也许，这样就离黑箱的真相更近了一步。

校对：刘威

澎湃新闻报料：021-962866

澎湃新闻，未经授权不得转载

我要举报

#人工智能