科学家如何利用人工智能

发布时间：23年12月28日

编译苦山

它正在让研究变得更快、更好、更高效。

2019年，美国麻省理工学院的科学家在现代医学领域做到了一件不同寻常的事——他们发现了一种新的抗生素，哈尔素（halicin）。今年5月，另一个团队发现了第二种新抗生素，阿鲍素（abaucin）。这两种化合物引人注目的地方不仅在于它们能够对抗两种已知最危险的抗生素耐药细菌，还在于人们找出它们的方式。

在两个案例中，研究人员都使用了人工智能模型来筛选数百万种候选化合物，以识别哪些化合物最适合对付某种“超级细菌”。这个模型的训练数据是几千种已知抗生素的化学结构，以及它们在实验室里对抗细菌的效果之优劣。在这个训练过程中，该模型找出了化学结构和成功破坏细菌之间的联系。一等到人工智能给出候选名单，科学家就在实验室里对它们进行了测试，并确定了他们要找的抗生素。麻省理工学院的计算机科学家蕾吉娜 · 巴兹莱（Regina Barzilay）参与了阿鲍素和哈尔素的发现过程，她表示，如果说发现新药就像在干草堆中寻找一根针，那么人工智能就像是金属探测器。将候选药物从实验室投入到临床需要多年的医学试验。但毫无疑问，人工智能加速了该过程前期的反复试错部分。巴兹莱博士表示，它提供了全新的可能性。“有了人工智能，我们将要提出的问题类型将与我们今天提出的问题大不相同。”巴兹莱说。

药物发现并不是唯一一个被人工智能的潜力震撼的领域。从预测天气，到为电池和太阳能板寻找新材料，再到控制核聚变反应——处理着世界上最复杂和最重要问题的研究人员纷纷转向了人工智能，以增强或加快他们的研究进程。

人工智能的潜力是巨大的。总部位于伦敦的谷歌DeepMind的联合创始人戴米斯 · 哈萨比斯（Demis Hassabis）表示：“人工智能可能会引领科学发现的新一轮文艺复兴，成为人类创造力的放大器。”他把人工智能比作望远镜，一种能让科学家比裸眼看得更远、理解得更深的基本科技。

你去哪里啦？

尽管人工智能自20世纪60年代以来一直是“科学工具箱”的一部分，但在多数时间里，它的应用场合都局限在那些科学家们已经精通计算机代码的学科领域，例如粒子物理学或数学。然而，根据澳大利亚科学机构联邦科学与工业研究组织的数据，到了2023年，随着深度学习的兴起，超过99%的研究领域都产出了与人工智能相关的结果。伦敦艾伦 · 图灵研究所的首席科学家马克 · 吉罗拉米（Mark Girolami）表示：“民主化是导致这种爆炸性增长的重要因素。”过去需要计算机科学学位和一系列晦涩难懂的编程语言才能完成的工作，现在可以通过方便用户使用的人工智能工具来实现，这些工具通常在向OpenAI的聊天机器人ChatGPT送出查询指令后即可开始运作。因此，科学家们可以轻松地得到一位坚韧、超人般的研究助手，它能够解出方程，还能不知疲倦地筛选大量数据，以寻找其中的任何模式或相关性。

例如，在材料科学领域，研究者面临的问题与药物发现领域类似——可能存在的化合物数量多得难以想象。当英国利物浦大学的研究人员在寻找具有制造更好电池所需的特殊性质的材料时，他们使用了一种被称为“自动编码器”的人工智能模型，在世界上最大的无机晶体结构数据库中搜索了所有已知的20万种稳定的晶体化合物。此前，该人工智能已经学习了新电池材料实现其目标所需的最重要的物理和化学特性，它将这些条件应用到了搜索中。它成功地将科学家需要在实验室中测试的候选化合物从几千种减少到了仅仅五种，节省了时间和金钱。

最终的候选材料是一种结合了锂、锡、硫和氯的材料，这种材料很新颖，不过要判断它是否能投入商业应用还为时过早。然而，这种人工智能方法正被研究人员用于发现其他类型的新材料。

你做了什么梦呀？

人工智能还可以用于预测。蛋白质在细胞中形成后折叠成的形状对于其发挥功能至关重要，然而科学家们尚未了解蛋白质是如何折叠的。但在2021年，谷歌深脑开发了阿尔法折叠模型（AlphaFold），该模型通过自学学会了如何仅凭蛋白质的氨基酸序列预测其结构。自发布以来，阿尔法折叠生成了一个数据库，内含超过2亿种预测出的蛋白质结构，已有超过120万名研究人员使用过它。例如，英国牛津大学的生物化学家马修 · 希金斯（Matthew Higgins）利用阿尔法折叠找出了蚊子体内一种蛋白质的形状，这种蛋白质对蚊子时常携带的疟原虫非常重要。随后，他结合阿尔法折叠的预测，计算出这种蛋白质的哪些部分最容易被药物靶向。另一个团队利用阿尔法折叠在短短30天内找到了一种蛋白质结构，该蛋白质会影响某类肝癌的增殖，从而为设计新的靶向疗法开辟了道路。

阿尔法折叠也对生物学其他方面的理解作出了贡献。例如，一个细胞的细胞核存在多个“门”，可以将物质带入细胞内以产生蛋白质。数年前，科学家知道核“门”的存在，但对它们的结构知之甚少。通过阿尔法折叠，科学家预测出了“门”的结构，这也有助于理解细胞的内部机制。阿尔法折叠的发明者之一、如今担任谷歌深智“科学人工智能”团队负责人的普什米特 · 科利（Pushmeet Kohli）表示：“我们并不真正、完全理解（人工智能）是如何得出这种结构的。但是，一旦它构造出了这个结构，实际上就提供了一种基础，如今，整个科学界都可以在此基础上进行建设。”

在加速复杂的计算机模拟方面，人工智能也证明了自己可堪大用。例如，天气模型是基于能够描述地球大气在任何给定时间状态的数学方程构建的。然而，预报天气的超级计算机价格昂贵、耗能大，并且计算需要花费大量时间。此外，为了跟上来自全球气象站的不断涌入的数据，模型必须一次又一次地运行。

因此，气候科学家和私营公司开始利用机器学习以加快速度。盘古气象是由中国企业华为构建的人工智能系统，它可以预测一周内的天气，预测速度比现行标准快数千倍，成本也低至原来的数千分之一，且精确度没有任何显著下降。由美国芯片制造商英伟达构建的傅测网络模型（FourCastNet）可以在不到两秒钟的时间内生成此类预报，并且是第一个以高空间分辨率准确预测降雨的人工智能模型，这对于预测山洪暴发等自然灾害至关重要。这两种人工智能模型都是通过学习观测数据或超级计算机的模拟输出数据来训练预测天气的。而它们仅仅是开始——英伟达已经宣布计划建立地球的数字孪生体，名为“地球二号”（Earth-2），该公司希望这个计算机模型能够在更区域性的层面上提前几十年预测气候变化。

与此同时，试图掌握核聚变能量的物理学家一直在使用人工智能来控制复杂的设备。聚变研究的方法之一是在一种叫托卡马克的甜甜圈形容器内制造氢等离子体（一种过热的带电气体）。当温度足够高时（约1亿摄氏度左右），等离子体中的粒子开始融合并释放能量。但如果等离子体接触到托卡马克的容器内壁，就会冷却并停止工作，因此物理学家要将气体约束在磁笼中。找到正确的磁场配置极其困难，手动控制它则需要设计数学方程来预测等离子体的行为，然后每秒钟对大约10个不同的磁线圈进行数千次小调整。相比之下，谷歌深智和瑞士洛桑联邦理工学院的科学家构建的人工智能控制系统允许科学家们在计算机模拟中对不同形状的等离子体进行尝试，然后人工智能会找到最佳方案。

自动化和加速物理实验及实验室工作是另一个引发兴趣的领域。“自运行实验室”可以规划实验，使用机械臂执行实验，随后分析结果。自动化可以用比过去快最高1 000倍的速度发现新化合物，或是找到更好的方法去制造现有化合物。

你已经在大展宏图的路上

随着2022年ChatGPT的问世，生成式人工智能迅速成为公众关注的焦点，但科学家们对它的研究已经持续了很长一段时间，它在科学上有两种主要的用途。首先，它可以用于生成数据。“超分辨率”人工智能模型可以将廉价、低分辨率的电子显微镜图像增强为原本因过于昂贵而无法记录的高分辨率图像。人工智能对材料或生物样本的同一小块区域的高分辨率和低分辨率图像进行比较。该模型学习两种分辨率图像之间的差异，此后就可以在它们之间进行转换。

正如大语言模型（LLM）可以通过预测序列中的下一个最佳单词来生成流畅的句子一样，生成式分子模型可以一个原子一个原子、一个键一个键地构建分子。大语言模型结合自学的统计数据和从互联网上挑选出来的数万亿字的训练文本，以模仿人类的方式进行写作。“全新分子设计”模型通过大量已知药物及其性质的数据库进行训练，它可以找出哪些分子结构最有可能做哪些事情，并据此构建。总部位于美国加利福尼亚州的沃希恩制药公司就以这种方式制造出了候选药物，其中几种正在动物身上进行试验，还有一种精准抗凝剂目前正处于临床试验的第一阶段。与人工智能识别出的新型抗生素和电池材料一样，由算法设计出的化学品也需要在现实世界中进行常规试验，然后才能评估其有效性。

滑铁卢大学的心理学家伊戈尔 · 格罗斯曼（Igor Grossmann）为大语言模型提供了一种更具未来主义色彩的用途。如果在输入真实（或虚构的）背景故事作为提示指令后，大语言模型能够准确地反映人类参与者可能说出的话语，那么它们在理论上就可以取代焦点小组，或者被用作经济学研究的决策主体。我们可以用不同的人格形象训练大语言模型，这样，它们的行为就可以被用来模拟实验，如果得出的结果有意思的话，之后可以通过人类受试者进行确认。

遍布宇宙

———————————————————

多种类型的人工智能已经在广泛的科学学科中得到了应用

计数濒危动物

野生动物保护

神经网络能够识别照片中的有害海星并计数无人机图片中的濒危物种。在一项研究中，人工智能对320万张图片自动分类，节省了8.4年的人力。

理解大脑

神经科学

“几何”式的深度学习解码了神经元群体如何协同工作。从形状观察大脑可以帮助科学家更好地理解大脑的疾病和正常运作。

揭示扭结中的隐藏模

纯数学

研究者用一种神经网络找到了扭结的几何和代数表达之间存在着某种此前未知的联系。该人工智能还发现了它们底层结构的新方面。

检测异常

基础物理学

大型强子对撞机内的粒子碰撞在每小时内产生的数据比脸书（Facebook）每年产生的数据还多。机器学习帮助科学家筛选数据，并在2012年发现了希格斯玻色子。

解码鲸的声音

语言学

研究人员使用生成对抗网络来推断抹香鲸发声中的哪些声音对该动物来说意义最重大，朝着解码鲸的交流系统迈出了一步。

量化不确定性

研究方法

人工智能可以全程追踪一个复杂实验或观测中的不确定性和错误。例如，从望远镜的初始测量一直追踪到计算机分析的最后一步。

大语言模型已经让科学家自身变得更高效了。根据GitHub的数据，使用像其“协力者”（Copilot）这样的工具可以帮助程序员在编写软件时速度提高55%。对所有科学家来说，在开始一个项目之前阅读该领域的背景研究都可能是一项艰巨的任务——现代科学文献的规模之庞大对于个人来说实在难以掌握。由美国非营利研究实验室应然（Ought）创建的免费在线人工智能工具“引导者”（Elicit）可以使用大语言模型帮助人们梳理大量的研究文献并总结重要内容，其速度要以比任何人类都快得多。不少学生和年轻科学家已经在使用它了，他们中的许多人发现它有助于找到可引用的论文，或在面对大量文本时定义研究方向。大语言模型甚至可以帮助人们从数百万份文件中提取结构化信息——例如使用特定药物进行的每一项实验。

人工智能也可以帮助人们扩大对学科内知识的获取。在日内瓦的欧洲核子研究中心，大型强子对撞机的每个探测器都需要配备专门的操作员和分析师团队。如果负责各个探测器的物理学家不聚在一起分享他们的专业知识，就不可能整合和比较它们的数据。但对于想要快速测试新想法的理论物理学家来说，这个方法并不总是可行。因此，加州大学河滨分校的物理学家米格尔 · 阿拉蒂亚（Miguel Arratia）提出，利用人工智能将多个基础物理实验（甚至是宇宙观测）的测量数据整合起来，这样理论物理学家就可以快速探索、组合和重复利用这些数据来进行自己的工作。

人工智能模型已经证明了自己可以处理数据、自动计算和部分实验室工作。但吉罗拉米博士警告说，虽然人工智能可能有助于帮助科学家填补知识空白，但这些模型仍然难以超越已知知识的边界。这些系统擅长内插（将现有的点连接起来），但在外推方面表现不佳（即想象下一个点可能落在何处）。

还有一些难题，即使是当今最成功的人工智能系统也无法解决。比如，阿尔法折叠并不是每次都能正确预测出所有的蛋白质结构。位于加州拉霍亚的斯克里普斯研究所的结构生物学家简 · 戴森（Jane Dyson）说，她的研究重点是“无序”的蛋白质，对于这类蛋白质，人工智能的大部分预测都一塌糊涂。“这不是一场让我们所有科学家都失业的革命。”此外，阿尔法折叠也仍未能解释为什么蛋白质会以这些方式折叠。“不过，也许人工智能有一个我们还不能理解的理论。”科利博士说。

尽管存在这些局限性，结构生物学家仍然认为阿尔法折叠使他们的工作变得更高效了。满是蛋白质预测值的数据库让科学家能够在几秒钟内推测出某种蛋白质可能的结构，而不必花费数年时间和数万美元。

而在加速科学研究和发现的步伐，尽可能地提高效率方面，人工智能还大有可为。最近，经济合作组织（OECD）发表了一份有关人工智能在科学领域之应用的报告，报告表示：“虽然人工智能正在渗透到科学界的所有领域和阶段，但它还远未发挥出全部的潜力。”报告总结道，人工智能可能带来巨大的收益：“在人工智能的所有用途中，加快研究的生产力可能是最具经济和社会价值的。”

欢迎来到机器世界

如果人工智能工具能够提高研究的生产率，世界无疑将获得哈萨比斯博士所预言的“人类创造力的放大器”。但人工智能的潜力仍不止于此：就像望远镜和显微镜让科学家看到世界的更多角落一样，人工智能中使用的概率论的、数据驱动的模型将越来越让科学家能够更好地建模和理解复杂系统。在气候科学和结构生物学等领域中，科学家已经知晓复杂的过程正在发生，但迄今为止，研究人员主要试图通过自上而下的规则、方程和模拟来理解这些课题。人工智能可以帮助科学家自下而上地处理问题——首先测量大量数据，然后利用算法来提取出规则、模式、方程和此后的科学理解。

如果说，过去几年见证了科学家们在人工智能的浅水区中“试水”，那么接下来的十年乃至更长时间里，他们必须潜入人工智能的深水区，游向彼岸的地平线。

资料来源 The Economist