色小姐 2024年诺贝尔化学奖:又又又双叒叕是AI?

发布日期:2024-10-09 22:56    点击次数:126

色小姐 2024年诺贝尔化学奖:又又又双叒叕是AI?

作家:奶树色小姐

裁剪:蝌蚪

当昨天的诺贝尔物理学奖刚刚颁给了修复了东说念主工神经收集的 AI 之父杰弗里 · 辛顿和约翰 · 霍普菲尔德,环球还在暗想:本年不会 AI 来了个大满贯吧?化学奖也可能给 AI 预测卵白质结构啊!

于是,不出不测地,瑞典皇家科学院 10 月 9 日晓示,2024 年诺贝尔化学奖一半给了修复东说念主工智能假想卵白质结构的大卫 · 贝克(David Baker)、另一半则给了修复了东说念主工智能预测卵白质结构的德米斯 · 哈萨比斯(Demis Hassabis)和约翰 · M · 詹珀(John M. Jumper)。

其实在  RostteFold  和  AlphaFold2  在 2021 年横空出世的时候,结构生物学家、死活一火学家、盘算生物学家就一经知说念,这项效果,笃定值得一个诺贝尔奖。

提及卵白质,信服不少东说念主其实并不生分,以至了解卵白质是细胞里讹诈各样功能的"元件"。不仅如斯,卵白质亦然构成咱们躯壳的基本物资之一。比如说健身不错检修肌肉,但想要肌肉增强变大,就必须有满盈的卵白质供给才行。

餐桌上的鸡蛋、牛奶以及各样肉类齐是富含卵白质的食品,关于东说念主类来说,卵白质随手可取;可是,想要获得卵白质的结构却难于上苍天。

富含卵白质的饮食 | 图源:iSlide

因为卵白质的结构非常复杂:简便讲,氨基酸构成卵白质,一个个氨基酸会有叫肽键的结构贯串,它的吞并不错酿成两种不同的角度。

那刻下给环球出一个简便数学题:假定有 100 个氨基酸构成卵白质,那就需要 99 个肽键,99 个肽键有两种不同角度的结构,同期不同角度还会有三种可能的安详结构,那即是 3 的 198 次方种可能,你淌若徐徐穷举,从天地爆炸到刻下齐数不完,这即是利文索尔悖论——卵白质结构非常非常各样,没方针用穷举来算完。

氨基酸组合历程中不同的二面角会产生不同的结构,因此才有意文索尔悖论这样的无尽种结构可能 | 图源:Wikipedia

结构这样复杂该如何办?生物学家最径直的主见即是不雅测,用不同的圭表来测量:上世纪五六十年代,用的是 X 光衍射——把卵白质结晶,然后打上 X 光,通过反射的角度不错估量卵白质长什么形势,这个难点即是如何把卵白质纯化结晶出来。

另一个刻下很热点的考虑圭表叫冷冻电镜,即是利用冷冻切片技巧,加上电子显微镜径直看卵白质结构,但症结就黑白常非常贵,太烧钱了。

冷冻电镜的基愉快趣 | 图源:Wikipedia

那环球猜猜这样些圭表,测量了几十年了,咱们分析出来些许个卵白质结构?其实一经不少了,笔据数据库纪录,刻下履行一经明白了18 万种卵白质。

可是相对的,咱们刚刚说到卵白质是氨基酸构成的,只须测序技巧测获得 DNA 序列,就能推导出卵白质序列。查找数据库不错发现,刻下已知的有十几亿种卵白质序列,这和 18 万之间差了快要一万倍。

是以结构生物学家就很麻烦——测序太简便了,导致结构生物学远远跟不上测序的速率。

卵白质结构明白数目变化 | 图源:Nucleic acids research, 2019.

卵白质序列测序的速率 | 图源:www.ncbi.nlm.nih.gov/genbank/statistics/

是以好多修复算法的盘算生物学家就想预测结构,通过算法预测笃定比作念履行快好多。可是刚刚也说了利文索尔悖论,预测结构非常非常难,你淌若穷举那是天文数字。

是以有好多的盘算想路,比如我不错类比,履行解出来的结构我不错类比相似的序列,估量相似的序列会不会有相似的结构,这个叫同源建模;也不错间隔来类比,比完再像缝补缀补拼积木一样把结构拼出来,这个叫穿线法……可是这样多圭表齐有个问题:精度非常差。这就好像我想看 1080P 的高清视频,可是如何调齐惟一马赛克高糊版,看齐看不清。

作念个类比的话,比真的质的卵白结构是左图,可是预测遣散通常只可获得左图的效果,好多信息齐无法得知(仅作默示进行处治,实质并不单是是模糊,还会有好多十足不同的永诀) | 图源:Wikipedia

为了促进列国科学家连接上前,从 1994 年运转,每两年齐会举办CASP,叫卵白质结构预测要津测试,来评估环球的算法预测准不准,来擢升算法的精度。

简便来说即是从各样卵白质序列里挑几个出来,一边让结构生物学家作念履行解出一个"圭表谜底",然后盘算生物学家就用我方的算法来比,望望谁跟圭表谜底更接近。

但很缺憾,24 年昔时了,仍然进展很慢。

CASP 官网

直到 2018 年,一个叫 AlphaFold 的圭表出来,获得了 80 分的高分,两年之后 2020 年 AlphaFold 二代打分到了 90 分,基本就和履行作念出来的圭表谜底一样了。如故刚刚 1080P 的比方的话,别东说念主预测像个马赛克,但 AlphaFold2 预测就一经差未几 1000P,和 1080P 基本大差不差。

这个环球也知说念了,即是 Deepmind 公司的德米斯 · 哈萨比斯和约翰 · M · 詹珀修复的东说念主工智能圭表。

AlphaFold2 圭表预测的精度远远高出其他算法(图 a),同期预测的遣散和履行遣散基本吻合(图 b-d)| 图源:Nature, 2021.

随后这个圭表运转等闲应用到了生物学上,一发弗成打理。

一是 Deepmind 修复的AlphaFold2算法,在短短几个月时代里,就把几十年结构生物学家明白的没明白完的卵白质齐解了:东说念主体 98% 的卵白质齐试着预测了一遍,其中三分之一能准确预测,还有一些也能概况预测一半多。同期他们宣称后头几个月就把数据库膨大到一亿个卵白质。这就比履行圭表快了上万倍了。

基于 AlphaFold2 预测的卵白质结构数据库

另一个生物学上的应用,是雷同基于东说念主工智能算法,由大卫 · 贝克修复的RoseTTAFold,它挑战的是更难的范畴——如何预测卵白质和卵白质互联贯合,也在短时代预测了几千种卵白质的互联贯合。

RoseTTAFold 的宣传图,最杰出的即是关于卵白质互作的结构预测

在 AlphaFold2 安定发布后只过了半年多,2022 年 7 月,DeepMind 公司的 CEO,德米斯 · 哈萨比斯就在新闻发布会晓示:咱们一经掌抓了"通盘这个词卵白质宇宙"(The entire protein universe)—— AlphaFold 马束缚蹄地运转,见效完成了现存卵白质数据库中一说念 2.14 亿种卵白质的结构预测。

德米斯 · 哈萨比斯 | 图源:Jung Yeon-Je/AFP/Getty

2.14 亿种卵白质中,有 35% 被评估为高度准确,天然这个数字看起来不高,可是按照刻下履行检测的水平,一说念作念完也就差未几这个水平——更何况,收场刻下履行检测花了几十年也只测出了 14 万种。

仅在 DeepMind 公司晓示完成了"通盘这个词卵白质宇宙"三个月后,2022 年 10 月,Meta 公司(原名 Facebook)就拓宽了这个"卵白质宇宙"的领域(‘ dark matter ’ of the protein universe)——他们利用我方修复的大型说话模子算法 ESMFold,预测了 6.17 亿种来自宏基因组信息的微生物卵白质结构。

ESMFold 算法的准确度天然略逊于 AlphaFold,但它的上风在于能以 60 倍于 AlphaFold 的速率去预测短序列卵白质的结构,这就使得它在预测结构相对简便的微生物卵白质上有了很大的上风。

  6.17 亿种卵白质结构的全览 | 图源:ESM Metagenomic Atlas

宿舍 自慰

没过几天,AI 又运转颠覆生物学家的证明了——创造卵白质。

这其实是一个和卵白质结构预测刚好相悖的问题:卵白质结构预测是从序列到结构,而创造卵白质是条目从咱们但愿获得的结构,反推出顺应的卵白质序列。昔时这是个盘算量深入的责任,刻下 AI 也能完成了。

  四种刻下常用的假想卵白质计谋 | 图片翻译自:Nature

比较于无数目预测卵白质结构,创造卵白质的方针就愈加明确——咱们但愿能创造出天然界不存在,可是对东说念主类非常有用的卵白质。

假想卵白质的尝试还在连接高出和迭代,一经渐渐用到了实质应用当中。例如在 RoseTTAFold 的考虑中,利用 ProteinMPNN 和 RoseTTAFold 圭表假想出来的卵白质,不仅在天然界十足不存在,况且大大擢升了这些卵白质结构的安详性,展望在畴昔会被用作疾病休养的抗原抗体,或者死活一火学反映所需的生物酶。

卵白质假想的历程,通过连接变嫌序列让卵白质结构趋于安详(结构的安详基于 AlphaFold 预测,越红代表越不安详,越蓝代表越安详) | 图源:Nature

不少东说念主可能要问了:预测卵白质结构,到假想卵白质,有啥用呢?

咱们最运转就提到了卵白质在咱们活命无处不在,而卵白质要推崇功能,基础是要有一定的结构。是以预测卵白质结构,不错匡助咱们更好地相识卵白质的功能,进而去比如构建卵白质分子药物,或者考虑复杂的死活一火学征象。

一个最简便的例子,比如刻下咱们知说念新式冠状病毒的新变异巧妙克戎传播力非常强,而这传播要津的刺突卵白结构,就不错利用东说念主工智能来预测,进而不错估量什么药物或者休养圭表不错更灵验的针对巧妙克戎。

使用 AlphaFold 预测的巧妙克戎突变体的 S 卵白结构

但同期,天然说东说念主工智能一经完成了结构生物学家好多的责任,可是这个预测仍然是不完善的:

比如有些复杂的结构,可能结构生物学家履行还莫得明白出来,东说念主工智能也就还没方针学习到,因此也预测不出来,是以好多问题仍然需要结构生物学家的深入推敲;

还有好多卵白在推崇功能的时候是一个动态变化的历程,这种时候预测的遣散就不准确,如故用 1080P 例如的话,即是表面上是一个 1080P 的视频,可是东说念主工智能在这几秒预测出来是 1080P 高清,那几秒预测出来却是马赛克,是以也不准确。

这些齐是东说念主工智能预测卵白质的症结,可是绰绰有余,东说念主工智能在卵白质结构预测带给咱们的惊喜实在太多了,而这项诺贝尔奖,即是盘算科学在生命科学上应用的最佳讲解。

参考府上:

Callaway E. 'The entire protein universe': AI predicts shape of nearly every known protein [ J ] . Nature, 2022, 608 ( 7921 ) : 15-16.

Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic-level protein structure with a language model [ J ] . Science, 2023, 379 ( 6637 ) : 1123-1130.

Callaway E. Scientists are using AI to dream up revolutionary new proteins [ J ] . Nature, 2022.

Ferruz N, Heinzinger M, Akdel M, et al. From sequence to function through structure: deep learning for protein design [ J ] . Computational and Structural Biotechnology Journal, 2022.

Wicky B I M, Milles L F, Courbet A, et al. Hallucinating symmetric protein assemblies [ J ] . Science, 2022, 378 ( 6615 ) : 56-61.

Wang J, Lisanza S, Juergens D, et al. Scaffolding protein functional sites using deep learning [ J ] . Science, 2022, 377 ( 6604 ) : 387-394.