澎湃Logo
下载客户端

登录

  • +1

特稿|AI小样本训练,16秒精准预测蛋白质结构:自起炉灶有深意

澎湃新闻高级记者 张静
2021-12-13 18:25
来源:澎湃新闻
科学湃 >
字号

2016年,DeepMind人工智能机器人AlphaGo以4:1的总比分取胜围棋世界冠军韩国棋手李世石。这一年,一家刚刚成立的上海AI企业开始参考AlphaGo开发一套AI围棋程序,随后击败世界围棋冠军朴廷桓。2020年,DeepMind人工智能程序AlphaFold2快速精准预测蛋白质结构,准确度媲美冷冻电镜等实验技术。一年后,这家本土AI企业再次推出国产自研蛋白质结构预测平台TRFold。

近日,上海天壤智能科技有限公司XLab发布蛋白质结构预测平台TRFold,其最新版本的预测精度接近AlphaFold2,并突破AlphaFold2需要超大算力的瓶颈,采取权重共享的方式节约算力,预测大多数蛋白质链所需时间不超过16秒。

在AlphaFold2已开源的情况下为何还要做人工智能蛋白质结构测序?再做一遍的挑战在哪?数据、算力不足情况下如何训练出一个好模型?接下来又会用TRFold做什么?

天壤创始人薛贵荣在接受澎湃新闻(www.thepaper.cn)专访时表示,AlphaFold2为结构生物学研究打开了大门,它就像“莱特兄弟的飞机”,其中的核心技术一定要自己掌握。如果不参与其中的技术演变,只能停留在最初的“飞机”结构。

研发TRFold也让薛贵荣意识到,AlphaFold2另一个贡献是其训练方法可以回馈AI,去做更好的AI。

薛贵荣表示,如果每个模型都需要标注10000个数据才能训练,对AI是一场灾难。实际上,数据是永远不够的,算力也是永远不够的,这种情况下算法的创新就显得更加重要了,比如能否用10张图片跑出一个好模型。他认为,小样本下的机器学习对AI来说是个大挑战,而AI的工业化生产并不需要那么多数据,这才是正道。

未来,团队也将继续深入模拟蛋白质与蛋白质之间的相互作用,基于相互作用可构建大规模相互作用网络图、靶点发现、突变蛋白质结构模拟、抗体模拟等。

TRFold 基于 CASP14 蛋白质测试集的评估数据。绿色:真实结构,蓝色:预测结构。

单张GPU下16秒精准预测

蛋白质是生命的物质基础,其三维结构直接决定了它的功能,一旦三维结构被破坏,蛋白质功能随之丧失或改变,许多疾病就是由体内重要的蛋白质结构异常所致。

每个蛋白质的氨基酸链扭曲、折叠、缠绕成复杂的结构,想要破解这种结构通常需要花很长时间,甚至难以完成。截至目前,约有18万个蛋白质的结构已经用实验方法得到了解析,但这在已经测序的数十亿计的蛋白质中只占了很小一部分。

在蛋白质结构解析的几十年历史中,X射线晶体学、核磁共振波谱学(NMR)、冷冻电镜(Cryo-SEM)技术纷纷发挥了巨大贡献。但这些传统方法往往依赖大量试错和昂贵设备,每种结构的研究都要花数年时间。

直到AI的加入,让单个蛋白质折叠预测问题得到基本解决,加速结构生物学的发展。2020年,DeepMind人工智能程序AlphaFold2在蛋白质结构预测竞赛CASP14中首次利用人工智能技术快速精准预测蛋白质结构,准确度达到原子级别,可与冷冻电镜等实验技术相媲美。

而国内的学术界和产业界也在蛋白质结构预测领域紧追国际步伐。除了中科院的Falcon、腾讯的TFold、深势科技的Uni-Fold,天壤自研蛋白质结构预测平台TRFold基于CASP14的蛋白质测试集进行企业内测,取得82.7分(TM-Score,评估蛋白质结构拓扑相似性的指标),超过华盛顿大学生物学家David Baker团队81.3分的成绩,仅次于AlphaFold2的91.1分。

TRFold采取权重共享的方式节约算力,算力消耗约AlphaFold2的1/32。在训练时,AlphaFold2使用了128个TPUv3核心(约等于256张GPU),TRFold仅使用了8张 Nvidia RTX 3090 GPU,以极小算力取得接近AlphaFold2的成绩。

TRFold采用5000万参数循环多轨注意力网络,同时支持氨基酸残基间的距离预测和蛋白质全链结构预测,400个氨基酸的蛋白链使用单张Nvidia RTX 3090 GPU的预测时间只需16秒,而AlphaFold2预测约同样数量的氨基酸蛋白链则需要70多秒。

在CASP14比赛期间,CASP官方曾发起一次针对新型冠状病毒肺炎的蛋白质结构预测,天壤基于TRFold提交的模型(nsp6-D2)预测结果还被CASP选为六个“最具可信度模型”之一。

传统意义上,单个蛋白质模型的预测分数达到90分以上就与实验室的预测结果差别不大,薛贵荣表示,TRFold将继续迭代,单蛋白的结构模拟只是开始,未来天壤计划模拟蛋白质与其复合物的相互作用,包括小分子、多肽、其他蛋白质等。

他表示,目前明确的研究方向是继续深入模拟蛋白质与蛋白质之间的相互作用。基于相互作用可构建大规模相互作用网络图,以及靶点发现、突变蛋白质结构模拟、抗体模拟等。

“蛋白质将来会是一个相互作用网络,我们获得这个作用网络以后就可以进行深入分析。”薛贵荣说,如果将来每个人的蛋白质结构和作用网络能全部测出,就可以提前通过蛋白质内部结构的突变分析,预测出未来的健康状况和治疗手段。

“这里面能做的事情实在太多了,我们今天只是海里的水取了一瓢出来看了一下而已。”而挑战也是不言而喻的,多蛋白的相互作用带来的算力消耗更大,假设一个亿的蛋白质和另外一个亿的蛋白质交互,那是一个亿乘一个亿的计算组合。“这个组合是爆炸的,用什么样的算法、策略来加速,这是一个很挑战的事。”

薛贵荣

“莱特兄弟的飞机”

2016年,DeepMind人工智能机器人AlphaGo约战围棋世界冠军韩国棋手李世石,以4:1的总比分取胜。这一年,刚刚成立的天壤开始参考AlphaGo开发一套AI围棋程序。

2018年5月,天壤AI围棋执白子对战世界围棋冠军朴廷桓,激战三小时后朴廷桓认负。而这套AI围棋程序最后用在了城市交通信号灯的控制上,帮助缓解交通拥堵。

2019年,天壤涉足蛋白质结构预测。薛贵荣常被问到,为何要进入蛋白质预测领域,又或是在AlphaFold2已开源的情况下为何还要做蛋白质结构测序。

“从我们一开始做AI围棋程序时就慢慢认识了AI的威力。这么多年来天壤一直希望用AI解决有挑战的大问题,比如交通,然后是生物。”薛贵荣表示,相对于交通这样从宏观层面用算法调度,人类对微观世界的认识就更有限了。

“我们从2019年开始做这件事,那时候的蛋白质结构数据和今天其实没什么大的变化。十来万有结构的蛋白质能不能用算法手段把微观世界未知的蛋白质三维结构刻画出来,这其实是一个很挑战的事。那时候有没有AlphaFold2也不知道,更别谈能不能做得出来。”

但如果蛋白质预测模型能达到实验仪器的精度,将是巨大进步。幸运的是,2020年底,AlphaFold2证明了算法的力量,让整个结构生物学界震惊,掀开了结构生物学的全新一页,“以前做一个蛋白质结构预测可能要花一到两年,突然一个小时就能解决。”

蛋白质结构预测问题的解决是生命科学探索的全新起点,薛贵荣说,这次变革为整个行业带来很大发展机会,技术突破将重构原来生物应用层面的许多逻辑,比如制药流程、疾病治疗、个性化医疗等。但事实上,AlphaFold2的开源代码只是推理代码,并没有公开训练代码。

AlphaFold2的成功是蛋白质结构预测方向的重大突破,而围绕蛋白质结构功能问题且能够达到实际落地应用准确度要求的AI算法的开发才刚刚开始,没有训练模型经验或没有具备能够训练出AlphaFold2结果的能力,是无法把该技术推进到解决更深层次的问题的。

“整个核心技术还是把控在人家自己手里,今天人家给你东西可以用,至于怎么来的你不知道。”薛贵荣表示。

比如DeepMind团队10月份发布的预测蛋白质复合体结构的AlphaFold-Multimer就是在AlphaFold2基础上进行微小调整后,将蛋白质与蛋白质之间的关系预测出来。这种更深入的研究就必须要有自己搭建底层算法的能力,才能真正应用在生物学领域。

“就像做飞机一样,从莱特兄弟发明第一架飞机能飞起来,如果中间过程不参与,你永远还是停留在当时那个结构。但今天大飞机在天上飞起来,能承载那么多人,其中有非常多的研究,很多创新也从中不断出现。”

薛贵荣说,今天DeepMind的AlphaFold2就是“莱特兄弟的飞机”,其中的核心技术一定要掌握,才能和其他团队在同一赛道比赛。“AlphaFold不断往前跑,我们也在不断追赶他们。”

AlphaFold2“反哺”AI

“我们很长时间一直也是在70分左右徘徊,也徘徊了很长时间,最近跳跃到80多分。”在两年半的研发时间里,TRFold经历了几十个版本的迭代,当前的训练架构是从今年初就开始设计,接着处理数据、训练数据,不停迭代,耗费10个月时间,目前取得82.7分。

而让团队头痛的挑战就是算力和内存,这决定了模型的大小。薛贵荣介绍,“小模型的记忆力是有限的,模型越大记忆能力就越强,但模型越大对应的算力和内存需求就越大。”在训练资源有限的情况下,团队从数据和网络设计上做出改进,在算力巨大差距的情况下实现了相对较好的结果。

“在后续构建蛋白质相互作用网络的过程中,涉及一个蛋白质和另一个蛋白质的相互作用,以及多个蛋白质之间的相互作用,计算量呈指数级增长。因此,TRFold以较小算力需求快速预测蛋白质结构对后续开展深入研究具有深远意义。”天壤XLab团队负责人苗洪江表示。

数据是机器学习的燃料,但相比以往图像识别机器学习算法需要依靠百万张图片数据来训练模型和系统,用实验方法已经解析的蛋白质结构只有十几万个。机器学习大牛吴恩达认为,人工智能落地的挑战之一是小数据的问题,如何使机器学习即使面对小数据也能工作。

而这也是困扰薛贵荣的问题。他和苗洪江第一天见面聊就在探讨,有结构的蛋白质数据够不够,能不能训练出一个满足效果的模型,还是说再等冷冻电镜10年,等50万数据出来就够了。“那时候我们也很担心,我们就怕这个领域做下去真的是10年以后的事了。”

但AlphaFold2证明,通过算法和模型设计、蒸馏数据等手段,是可以取得好结果的。相比AlphaFold2,TRFold的算法模型仅采用少量的真实数据训练,即从多个宏蛋白质组序列库中寻找出蕴含更精准共进化信息的多序列排列,使模型在训练过程中能够获得对真实共进化信息更好的识别能力,从而取得对氨基酸残基距离和坐标更准确的预测结果。团队有望在近期加入蒸馏数据增强工作,进一步提高模型的预测和泛化能力。

回过头来看,薛贵荣认为,除了为结构生物学研究打开了大门,AlphaFold2另一个贡献是其训练方法可以回馈AI,去做更好的AI。

“AI三个步骤,数据标注准备好,算法设计好,目标要想好,有了这三件事再加上算力支持才能做AI。”但实际上,数据是永远不够的,算力也是永远不够的,这种情况下算法的创新就显得更加重要了。

“10张图片能不能出来一个很好的模型?别变成给你10000张图片能不能出来一个好的模型。小样本情况下的机器学习能不能做好,其实这对整个AI领域是一个很大的挑战,因为只有小样本才能具备规模化、工业化的生产能力。”薛贵荣表示,如果每个模型都需要标注10000个数据才能训练,数据标注行业的发展势头会很好,但对AI来讲是一场灾难。

“做什么事都要标大量的数据怎么玩得下去?人工智能偏人工了。我们真正要做的是把智能这块做强,把人工这块限制在一个框框内,这才是我们真正讲的从人工智能走向机器智能。”从AlphaFold到AlphaFold2,薛贵荣认为,这就是人工智能走向机器智能的巨大变化。AI的工业化生产并不需要那么多数据,这才是正道。

    责任编辑:李跃群
    图片编辑:施佳慧
    校对:丁晓
    澎湃新闻报料:021-962866
    澎湃新闻,未经授权不得转载
    +1
    收藏
    我要举报

            扫码下载澎湃新闻客户端

            沪ICP备14003370号

            沪公网安备31010602000299号

            互联网新闻信息服务许可证:31120170006

            增值电信业务经营许可证:沪B2-2017116

            © 2014-2024 上海东方报业有限公司

            反馈