不止会下棋,“阿尔法狗”背后团队或解开糖尿病等病症之谜

2018-12-03 13:34:59 阿尔法,下棋,病症

对于许多人来说,2016年“阿尔法狗”对阵世界围棋冠军李世石的世纪之战可能还历历在目。而现在,这家“阿尔法狗”背后的人工智能企业DeepMind正在又一次创造历史——

这次,他们不再局限于与人类在竞技体育上一争高下,而是直接将目光投向了目前科学领域最棘手的问题之一:预测蛋白质。

实际上,在此前,对于人类研发治疗阿尔茨海默症、糖尿病药物时,蛋白质折叠一直是个大问题,曾经也有科学家尝试用超级计算机折叠蛋白质,但是效果并不是很理想。

据《卫报》报道,就在12月2日,在墨西哥坎昆举行的一场国际会议上,DeepMind最新人工智能程序AlphaFold(阿尔法折叠)被确认,在根据基因序列预测出蛋白质的3D形状这项任务上击败了所有竞争者,最终预测准确率超过一半。

“AlphaFold是该公司首个证明,人工智能研究可以驱动和加速科学新发现的重要里程碑,” DeepMind方面表示。

▲ 此前,科学家发现了一种蛋白质是乳腺癌生长和扩散的关键驱动因素 图据卫报

“蛋白质折叠界的奥运会”取得惊人成绩

实际上,早在2016年,DeepMind开发的程序AlphaGo击败世界围棋冠军李世石之后,开发团队就已经将目光投向了研究蛋白质折叠的领域。

尽管围棋之类的游戏已经被证明是一种对于AI程序功能的极好测试方式,但是对于研发团队来说,在这些项目上与人类一争高下显然不是他们的最终目的。

“与世界冠军下围棋的意义,从来不在于赢得比赛本身,最终目的是为了发展算法,解决像蛋白质折叠这样的问题。” DeepMind联合创始人兼首席执行官戴米斯·哈萨比斯(Demis Hassabis)表示。

▲阿尔法狗与李世石的对弈图据美联社

而这一次,DeepMind让AlphaFold参加了结构预测(CASP)的关键比赛,这是一项每两年举办一次的,堪称“蛋白质折叠界的奥运会”,吸引了来自世界各地的研究团队。

这一比赛的目的是为了从他们的氨基酸列表来预测蛋白质的结构。此前,这些列表已经在比赛前几个月时间中,每隔几天发送给参赛的团队。在比赛最终结束前,这些蛋白质的结构已经通过费力又费钱的传统方法破解,但还没有公开,最终提交最准确预测的团队将获胜。

尽管这次是AlphaFold首次参赛,但是,它取得了惊人的成绩——

在发给比赛团队的43种蛋白质中,AlphaFold有25种预测最接近正确结果;而在同一类别中排名第二的选手,仅在43种蛋白质中,有3种结果预测的最接近正确结果。

与此前的“阿尔法狗”相同的是,AlphaFold构建的模型都依赖深度神经网络,这些经过训练的神经网络可以从基因序列中预测蛋白质的属性。

在构建的过程中,DeepMind在数千已知的蛋白质上训练了一个神经网络,直到它可以仅凭氨基酸预测蛋白质的3D结构。此后,给定一种新的蛋白质时,AlphaFold可以利用神经网络来预测氨基酸对之间的距离,以及连接它们的化学键之间的角度,最后调整初步结构以找到能效最高的排列。

根据DeepMind在官方博客中针对AlphaFold发布的科普性文章,他们这样解释道:“我们训练了一个神经网络,来预测蛋白质中每一对残基之间的距离分布,然后将这些概率打成一个分数,用这个分数来评估预测的蛋白质结构有多准确;我们还训练了一个单独的神经网络,用来估计建议预测结构和实际结构之间的差距。”

据悉,在项目之初,AlphaFold花了两周时间来预测其第一个蛋白质结构。但现在,这一工作在几小时内就可以完成。

▲一种用AI算法做出的动画,用于预测CASP13目标T1008的结构图据DeepMInd官网

或助人类探明糖尿病等病症原因

那么,预测蛋白质折叠对于人类医学,为何如此重要?

据《卫报》介绍,蛋白质折叠是一种令人难以置信的分子折叠形式,其神秘本质很少在科学界之外得到讨论,因此对于许多人来说是一个显得有些陌生的词汇。

但是,这其实是一个极为重要的问题——生物学的机制由蛋白质构成,蛋白质的形状决定了它的功能。

生物学上来说,人类可以制造大量不同的蛋白质,估计数量从数万到数十亿不等,但都是由20种不同的氨基酸连接形成的多聚体。蛋白质可以在每一种氨基酸之间扭转和弯曲,因此可能呈现出数量惊人的不同结构,可以达到1后边跟着300个零这样庞大的数字。

蛋白质的三维形态取决于它所含氨基酸的数量和类型,而这一形状也决定了它在人体中的作用,人体几乎所有的功能,从肌肉紧张、感知光线到将食物转化为能量,都可以追溯到蛋白质的形状和运动。

在通常情况下,蛋白质会行成对其来说最节能的形状,但是它们仍然可能纠缠在一起,折叠不当,进而导致糖尿病、帕金森症及阿尔茨海默症等疾病。

这意味着,如果科学家能够从蛋白质的化学组成中,预测出蛋白质的形状,就能够搞清楚它的作用,以及它是如何扭曲并产生伤害,并设计出新的蛋白质来对抗这些疾病。

“如果了解蛋白质是如何折叠的,研究人员就能开创一个科学和医学进步的新时代。”《卫报》介绍称。

▲DeepMind博客原文图据DeepMind 官网

“目前我们只是迈出了第一步”

首次涉足蛋白质折叠领域的成功表明,机器学习系统可以整合各种信息来源,帮助科学家快速找到各种复杂问题的创造性解决方案。人工智能已经通过AlphaGo等系统掌握了复杂的游戏,与此类似,利用人工智能攻克基本科学问题的未来同样值得期待。

DeepMind联合创始人哈萨比斯表示,这是一个非常关键的时刻。“这是一个堪称引领性的项目,我们将优先在这一基本的、极为重要的、具有现实意义的领域投入精力。”

但是,尽管取得了比赛的胜利,哈萨比斯坦言,要做的工作还有很多,“我们谈不上解决了蛋白质折叠的问题。目前,我们只是迈出了第一步。这是一个极具挑战性的问题,我们有一个良好的体系,还有很多想法尚未付诸实践。”

编辑丨平静