在AlphaFold2问世之后,全球陆续出现了许多端到端的预测平台,包括RoseTTAFold、RGN2、OmegaFold、ESMFold等。本期专稿刊发《人工智能是蛋白质科学的终结者吗?》一文,以故事的方式展示了几十年来科学家解构蛋白质结构的努力。即使种种模型不断构建,AlphaFold2仍是里面最具突破性的一个。
其他方法的技术逻辑跟AlphaFold2相比,没有实质的创新,主要围绕着改进进化信息的提取,特别是蛋白质语言模型的使用,可以对那些没有太多天然同源序列的蛋白质结构预测进行改进。正如专稿所描述的,在最近的2022年第15届蛋白质结构双盲预测比赛中,前几名的方法都是利用了AlphaFold2的预测结果,没有什么大的进展。而AlphaFold3相比于AlphaFold2,虽然算法改变不小,训练集增加了两年的数据,但精确度变化不大,也反映出蛋白质结构预测遇到了瓶颈。
不过,AlphaFold3仍有值得我惊喜的地方,即它的通用性——不再局限于蛋白质,还可以用于其他生物高分子与小分子配体、高分子修饰,以及蛋白质和它们的复合物结构。通用、多模态模型是目前发展的一个大趋势,这些模型能够处理和理解多个不同模态,例如文本、图像、语音等的信息,使这些模型在解决各种复杂任务时具有更强大的能力。实现这些功能的主要方法是整合多种数据类型,从而扩大可以用来训练的数据,处理更加复杂的应用和任务。比较突出的是,最近预印本网站BioRxiv出现的ESM3,能够把序列、结构、功能同时进行处理。这个方法虽然相比ESMfold的蛋白质结构预测精度有提升,但跟AlphaFold 2比较还有差距,再一次表明,即使使用了巨大无比的语言模型(98B),还是不能获得天然同源序列里面包含的所有进化信息。
实际上,对于最近蛋白结构预测领域关注度很高的AlphaFold3而言,还有很多改进的地方。例如,在蛋白质结构预测方面,AlphaFold3跟AlphaFold2一样,如果天然同源序列不多的话,预测结构的准确度会大幅度下降,因为深度学习严重依赖天然同源序列里面的进化和共进化信息来获取蛋白质主链的走向和氨基酸之间的距离。最近,我们团队正致力于用高通量实验方法来产生人工的同源序列蛋白质来代替天然同源序列,在BioRxiv预印本上发表的初步结果表明少突变、大量的同源序列信噪比可以比多突变、少量的天然同源序列更好,从而可以更加有效地萃取进化信息,预测更高精度的结构。但真实的、物理的蛋白质结构折叠并不需要同源序列来辅助,是依靠自己单个序列来实现折叠的。所以怎样实现对单序列结构的预测仍旧是一个任重道远的任务。AlphaFold3在蛋白质复合物、抗体结构的预测准确性方面,比目前最好的预测复合物方法提高了不少,但还没有达到2020年AlphaFold2对蛋白质单体结构高精度预测的水平。
因此,现阶段,无论是最新出现的巨型AI蛋白质模型ESM3,还是AlphaFold3,其结构预测是不是已经能够用以发现全新药物分子还有不少争议。虽然基于ESM3模型用来进行药物和科研工具开发的公司最近获得了1.42亿美元的资助,AlphaFold3也能够预测一些已知小分子配体的蛋白复合结构,但大多数预测结构的精确度还不够,比如AlphaFold3还不能够准确预测蛋白和配体相互作用的亲和力。对于抗体或者抑制多肽/蛋白质的设计,我更加乐观一些,因为现在已经有一些成功的例子,只不过成功率还比较低,相信不久便能实现更大的改进。
未来,我认为最终的蛋白质结构预测系统应该是一个物理原则感知的模型,AlphaFold3在预测抗体结构的时候,就引进了物理因素来对目标抗体结构进行排序。这样可以减少对训练数据量的依赖,对同源序列的高质量要求,更重要的是可以更好地提供功能预测的准确度,包括抗体的设计和药物的开发。
————————
本文作者周耀旗教授是深圳湾实验室资深研究员,担任系统与物理生物学研究所副所长,也是砺博生物科技有限公司的科学创始人、畅销书《出发:不断走出舒适区的科研生活之旅》的作者。他长期致力于结构生物信息学研究,曾经多次在国际蛋白质/RNA结构预测和功能预测比赛中名列前茅,因相关科研成果入选了全球前2%顶尖科学家“终身科学影响力排行榜”“年度科学影响力排行榜”“中国高被引学者(生物学)榜”等