澎湃Logo
下载客户端

登录

  • +1

人工智能带来的科学革命:给科学家打下手,比博士生还高效

澎湃新闻记者 虞涵棋
2017-07-12 07:40
来源:澎湃新闻
科学湃 >
字号

人工智能(AI)正在革命所有的行业,包括科研,这个看上去最“人类智能”的领域。不过,与忧心忡忡、担心被抢饭碗的卡车司机或数据分析师不同,科学家们看到AI简直两眼放光:人工智能的计算能力与工作效率不知比博士生高到哪里去了,还不用吃饭和睡觉,真是最理想的“压榨”对象。唯一的问题是,如果未来人工智能看得懂也写得了论文了,要不要加上它的署名呢?

近日,著名学术期刊《科学》上刊登了一系列报道,记录人工智能带给科学的革命。

大数据与深度学习

踏过各自的风雨历程,科研与人工智能在大数据时代这个路口,注定相遇。从千变万化的染色体与蛋白质结构、恒河沙数的宇宙星体数据,到互联网上每天批量诞生的文字视频,自然和社会科学家的烦恼终于逐渐从数据不够,演变为数据太多,多到超出人类目力和脑力的极限。

而在另一边,“深度学习”(deep learning)赋予了算法“智能”的雏形,恰好为大数据而生。在前深度学习时代,研究员们需要依靠自己的智慧建立某种关系,设定计算机如何由一个输入值,得出一个对应的输出值。深度学习则解放了人类:“喂”给程序大量相匹配的输入值和输出值,由程序自身摸索出其中的关系。

科学家们就亟待这种解放。对普通人来说神秘而高深的科研工作,其实包含了无数对海量数据的机械性处理,不仅枯燥,而且博士生的一个马虎,就可能毁掉一个团队几年的心血。

粒子物理

早在1980年代,粒子物理学家们就看上了人工智能。毕竟,粒子物理学家们很多时候在做的工作,就是一次又一次地把粒子放在加速器里对撞,期待在这些看起来很相似的实验数据里发现一点点不同的迹象——那可能就是新粒子的魅影。这个工作连篇累牍,枯燥透顶,却是人工智能最擅长的领域。人工智能善于通过给定的几个变量,从庞大的背景数据中找出有用的信号。

欧洲大型强子对撞机(LHC)

2012年,欧洲大型强子对撞机(LHC)终于“撞”见了预言中的“上帝粒子”——希格斯玻色子。这是标准模型中最后被发现的粒子,它的发现就有人工智能的一份功劳。毕竟,每对撞10亿次质子,才可能会产生1个希格斯玻色子,而它产生10^-22秒后就会衰变为其他粒子。不难想象,阅读这些数据,是怎样浩大的工作量。

正在解读LHC数据的神经网络 来源:CERN(欧洲核子中心)

当然,在现阶段,人工智能只能这样给物理学家们打打下手,找找数据。具体怎么找,还是基于物理学家们对物理学的理解。但人工智能会变得越来越重要。在未来的几年内,欧洲大型强子对撞机的对撞速度将提升至目前的10倍。面对汹涌而至的数据,人工智能不可或缺。

寻找自闭症基因

尽管生物学家们不断通过基因解开疾病的奥秘,但自闭症却令他们有些为难。自闭症具有明显的遗传倾向,而目前找到的自闭症基因,只能解释其中20%的病例。更多的自闭症疑凶,藏在人类剩下的25000多个基因中。

美国普林斯顿大学的计算生物学家欧嘉·特洛杨斯卡娅(Olga Troyanskaya)收集了大量基因在特定人类细胞中活动的数据,比如蛋白质互动的方式,转录因子结合位点和其他关键染色体性质。她的团队运用人工智能,将已知自闭症基因的活动数据,与其他未知的基因对比,寻找相似性。他们最终找到了2500个疑似基因。

帮助自闭症患者 来源:BSIP

不过,基因并不是唯一的凶手。遗传学家们最近才意识到,基因周围的染色体非编码片段也在助纣为虐。找出这些从犯,比找出自闭症基因本身还要困难多了,更需要人工智能的帮助。

大众心理

对于社会科学家来说,人工智能则是一把理性的钥匙,能解开隐藏在人类语言中的性格密码。

每天发在社交网络上的状态,是芸芸众生日常情绪的记号。但是,这些看似杂乱无章的数据,真的能成为照见大众内心的有用信息吗?美国著名心理学家马丁·塞利格曼(Martin Seligman),和他的同事们成立了一个“世界幸福项目”,试图透过社交网络数据捕捉公众心理和生理健康的信号。比起传统的问卷调查,这种方法廉价、自然,数据量也多,就是很杂乱——这就需要人工智能的帮助了。

研究员们使用了29000名做过线上自我抑郁评估的Facebook用户的数据。算法成功地在抑郁程度,和平时状态里使用的语言之间建立了关联。通过分析一个Facebook用户平时的状态,人工智能就能得出他/她的抑郁程度。

另一项研究则显得更令人惊奇:通过推特内容,人工智能可以预测一个郡的心脏病死亡率。这些隐藏在文字中的因素甚至比排在前10位的主流因素,比如抽烟与否或患糖尿病与否,更能准确地预测。

而得克萨斯大学奥斯汀分校的詹姆斯·彭尼贝克(James Pennebaker)发现,看一个学生申请入学时的文章,就能预测他/她的成绩。冠词和介词用得好的,分析性思维强,成绩一般比较好;爱用代词和副词的偏向于叙述性思维,成绩一般差一点。

硅谷里的人工智能

高校里的科学家们看到了人工智能这个优秀的劳动力,科技企业更不会错过这个商机。位于硅谷的生物技术公司Zymergen,就由人工智能承包了实验。

人类正在驱使各种微生物生产有用的成分:生物燃料、塑料、药品等等。而Zymergen的业务,就是通过改造微生物的基因,提高这些“劳工”的生产效率。

那么,如何找到那些可以提高生产效率的基因,并改变它们呢?Zymergen的员工金波尔(Kimball)举例说:“比如原来的微生物有5000个基因,每个基因你可以做出10种改变,那你就可以做出50000个变种。” Zymergen先做出1000种不同的变种,也许会发现其中25种的生产效率有那么一点点提高,那这25种就留待第二轮实验。

人工智能大大加速了这一过程。之前,人力每周大约能完成10次试验,而机器每周就可以完成1000次。

基因序列

当然,想要得到最好的基因变异并不容易,因为这不是一个简单的加法问题。你得到了25个有轻微提高的变异,如果把它们全加到同一个微生物上的话,那么你大概不会得到一个超强的微生物,而是病蔫蔫的微生物。这仿佛是在一个25维的坐标上寻找方向,计算机仍依赖人类判断力的导航。

目前,Zymergen能将目标微生物的生产效率提高10%以上。这听起来只是微小的工作,但依赖微生物发酵的化学产业规模达到每年1600亿美元,这10%产生的效益,比国家科学基金(NSF)的经费还要多。

“黑箱”

并不是所有科研人员都完全放心人工智能。一个博士生虽然会犯错,但他能思考并告知自己如何犯了这个错误。比起来,深度学习就是一个高效而沉默的黑箱。略显可怕的是,人类无法知道深度学习如何得出它的结论,因而也无从知道它是如何犯错的。

在过去,数据之间的特征是由开发者提取,并“教会”程序的。现如今,从海量输入值到海量输出值之间,人工智能到底提取了哪些特征,建立了哪些关系,都隐藏在一个黑箱中。视觉识别方面的主流“卷积神经网络”,就是将每一层提取的特征作为下一层的输入值,进而提取到更为抽象的特征。随着深度的增加,人工智能的输出越发趋向完美,但其中的“原理”也越发没有头绪。

打开黑箱的尝试已经演变成了一门新的学科。有些人试图窥探“黑箱”里到底发生了什么。华盛顿大学的马尔科·里贝罗(Marco Ribeiro),想要通过不断调整输入值,观察到底是哪些变化影响到了输出。譬如,不断调整一段电影评论文字,让一个文本分析的人工智能鉴定其评价是正面的还是负面的。而谷歌的研究员桑德拉拉杨(Mukund Sundararajan)则并非随机调整输入值,而是引入了一个空白干扰,一步步向目标值渐变,以观察输出值特定的“跳跃”变化轨迹。

另一些研究者则想绕开黑箱,开发一些效果媲美深度学习,但透明度更高的框架。微软的里奇·卡鲁阿纳(Rich Caruana)就被深度学习“坑”过。1990年代,他刚从卡内基梅隆大学毕业,加入了一个通过机器学习帮助肺炎患者的团队。通常来讲,普通的肺炎病患更宜在家休养,避免交叉感染,而那些带有哮喘等复杂病情的病患则应立即住院治疗。神经网络学习了78家医院提供的症状和结果数据后,出现了一个很难解释的漏洞:它建议那些带哮喘症状的病患回家。

为了绕开神经网络,卡鲁阿纳回到统计学中线性回归的老路,来寻找灵感。1980年代就存在的广义加性模型(GAM)不仅能处理简单的线性回归,也能通过复杂的计算,将更复杂的数据进行拟合。卡鲁阿纳运用机器学习方法升级了GAM。在图像和声音处理上,神经网络占有绝对优势。但针对所有能放进表格里的数据,升级版的GAM表现得都不差。最重要的是,这中间的运算都是透明的。

用GAM跑了一遍肺炎的记录,卡鲁阿纳终于找出了当年的漏洞是如何产生的:那些患上肺炎的哮喘病患常规上会被医院安排进重症监护病房,重点治疗,而人工智能只看到了病人病情的迅速好转,因此建议病人回家。

最后,还有一部分研究者即不想法设法窥探黑箱的内部,也不会绕开黑箱。他们专心让“深度学习”更深度,也许,这样就离黑箱的真相更近了一步。

    校对:刘威
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈