巨型AI蛋白质设计模型生成了新型荧光蛋白

发布时间：24年08月28日

编译思羽

EvolutionaryScale（一家AI新锐公司）的蛋白质语言模型ESM3是生物学领域最大的AI模型之一，已创造出新型荧光蛋白。这一进展赢得了市场积极的关注。

一个绿色荧光蛋白的结构模型，绿色荧光蛋白在生物科技中有着广泛应用

科学家已经使用一个“能讲蛋白质语言”的人工智能（AI）模型——它是迄今为止生物学领域开发的最大模型之一——生成新式荧光分子。

2024年7月，位于纽约市的EvolutionaryScale宣布了这个原理验证示范成果，同时宣布新筹得1.42亿美元的资金，未来将把该模型应用于药物开发、可持续发展和其他科研方向。这家公司由之前在科技巨擘Meta公司工作过的几位科学家创立，是日益拥挤的研究领域的最新成员。该领域正在将针对语言和图像进行训练的前沿机器学习模型应用于生物数据。

“我们想要构造能让生物学编程成为可能的工具。”EvolutionaryScale的首席科学家亚历克斯·里夫斯（Alex Rives）说道。他参与了Meta公司将AI应用于生物数据的科研工作。

EvolutionaryScale的AI工具名叫ESM3，是一种被称为蛋白质语言模型的东西。科学家利用超过27亿个蛋白质序列和结构以及这些蛋白质功能有关的信息来训练这个模型。它可以按照用户提供的规格生成蛋白质，类似于ChatGPT之类的聊天机器人生成文本。

“它将会成为人人关注的生物学AI模型之一。”威斯康星大学麦迪逊分校的计算生物学家安东尼·吉特（Anthony Gitter）说道。

焕发光彩

里夫斯和他的同事在Meta公司时研究了ESM模型更早期的迭代，但在Meta公司终止这个领域的研究工作之后，他们决定单干。他们此前曾使用ESM-2模型创建了一个包含6亿个预测蛋白质结构的免费数据库。自那时起，其他团队已经使用ESM-1的不同版本来设计对抗包括SARS-CoV-2在内的病原体时具有更好活性的抗体，并通过基因工程技术重新设计出“抗CRISPR”蛋白质，从而提高基因编辑工具的效率。

2024年，另一家生物学AI公司——位于加州伯克利的Profluent公司——使用自身的蛋白质语言模型创造出全新的、由CRISPR激发的基因编辑蛋白质，并使其中一个蛋白质可以免费获取使用。

为了展示最新模型，里夫斯的团队着手彻底革新生物科技中广泛使用的另一个工具：绿色荧光蛋白（GFP）。

GFP能够吸收蓝光，发出绿光。研究者在20世纪60年代从水晶水母（Aequorea victoria）中分离出GFP。后来的研究工作——随着这一发现获得诺贝尔奖——揭示了GFP如何在显微镜下标记其他蛋白质，解释了其发出荧光的分子基础，还开发出了发光更亮、颜色不同的GFP合成版本。

自那时起，研究者已经确定其他有着类似形状的荧光蛋白质，这些蛋白质都有一个能吸收光线、发出光线的“发色团”核心，核心外面包围着一层桶形支架。里夫斯的团队要求ESM3生成类似GFP、含有一组在GFP的发色团中找到的关键氨基酸的蛋白质实例。

研究者人工合成出其中88个最具希望的设计对象，测量它们发出荧光的能力。大多数设计都失败了，但其中一个设计对象与已知的荧光蛋白质不太相似，能发出淡淡的荧光——大约只有天然形态的GFP的荧光亮度的1/50。研究者使用这个分子的序列作为起点，再给ESM3派下改进工作的命令。等到研究者在得到的设计对象中选出大约100个合成为蛋白质后，发现其中有好几个蛋白质的亮度可媲美天然的GFP，但这仍旧比实验室用基因工程修改得到的变体晦暗了许多。

ESM3设计出的最亮的蛋白质之一，被命名为esmGFP，被预测拥有一种类似天然荧光蛋白质的结构。然而，它的氨基酸序列极为不同，与训练数据集中最为相近的荧光蛋白质的氨基酸序列匹配度不到60%。在bioRxiv服务器上张贴的一篇预印本论文中，里夫斯和同事们说，根据自然突变速率，这种程度的序列差异需要“超过5亿年的进化”才能实现。

但是，吉特担心这种比较是一种毫无意义而且有可能误导他人的方式，不该这样来描述前沿AI模型产品。他说：“当你把AI和加速进化放在一起考虑，这听上去就很恐怖。我感觉，夸张地宣传一个模型做了些什么，可能会伤害该研究领域，对于公众也可能是危险的。”

ESM3通过迭代各种不同序列而生成新的蛋白质，在里夫斯眼中，这个过程与进化类似。“大自然会需要什么来生成类似这样的物质？我们认为，从这个角度来做思考挺有意思的。”他补充道。

风险阈值

2023年的一项美国总统行政命令要求，AI模型在训练时使用的算力达到一定阈值，开发方就要通知美国政府，并报告风险缓解措施，而ESM3是第一批被要求这么做的生物学AI模型之一。EvolutionaryScale表示，公司已经联系了美国科学与技术政策办公室。

该版本的ESM3超过了这一阈值，包含将近1000亿个参数（即模型用来代表序列之间关系的变量），是无法公开获取的。对于较小规模的开源版本，某些序列（譬如来自病毒的序列，以及来自一份美国政府列出的、令人忧虑的病原体和毒素清单的序列）被排除在训练数据之外。对外发布的ESM3-open是无论哪儿的科学家都能下载和独立运行的，但无法对其进行升级并让它生成那些危险的蛋白质。

马丁·帕斯萨（Martin Pacesa）是瑞士洛桑联邦理工学院的一位结构生物学家，他对于开始用ESM3来做研究感到兴奋。他指出，ESM3是第一批允许研究者使用自然语言描述蛋白质的性质与功能、进行个性化设计的生物学模型之一。他也迫不及待地想看到这些特色功能在实验中表现如何。

EvolutionaryScale发布了一个ESM3的开源版本，还清晰地描述最大型版本的ESM3是如何训练的，这些给帕斯萨留下深刻印象。但是，独立开发最大型AI模型需要庞大的计算资源。他说：“没有一家大学实验室具有复制它的能力。”

里夫斯渴望将ESM3应用于其他设计。帕斯萨参与的一支研究团队使用另一种蛋白质语言模型制造出新的CRISPR蛋白质，他说在ESM3上做同样的事会很有趣。里夫斯希望能把ESM3应用于可持续性发展（公司网站上的一个视频显示了能蚕食塑料的酶的设计方案）、抗体和其他基于蛋白质的药物研发方面。他说：“它确实是一个前沿模型。”

————————

资料来源 Nature