机器学习以其发现欺诈性信贷或识别面孔的能力而闻名。当下,研究人员正用它学习和识别什么样的病毒可能引发疫情。

5.2.1

美国乔治城大学的生物学家科林·卡尔森一直在对计算机进行编程以促使其自学病毒知识

鼠痘于20世纪30年代被人类首度发现,是一种烈性传染病,能在老鼠群体内传播且对它们高度致命,不过科学家长期以来从未将其视为人类的潜在威胁。然而,现在的情况似乎有所不同。美国乔治城大学生物学家科林 · 卡尔森(Colin Carlson)博士和他的同事——以及他们计算机上的病毒预测模型——发现鼠痘病毒并不简单。

过去几年,卡尔森等人尝试通过机器学习,对计算机进行编程,令其能够自主学习认知病毒,预测可能感染伤害人类的微生物。他们的计算机梳理了大量关于这些病原体动物宿主的生物学和生态学信息,以及病毒自身的基因组等特征。随着时间的推移,机器开始认识到某些因素有助于预测病毒是否有可能蔓延到人类身上。

当算法确认了某种已知病毒的跨物种传播风险,卡尔森和同事就会将其列入“风险名单”。在近期的工作中,算法出人意料地将鼠痘病毒放到了危险病原体名单的前列。

用卡尔森的话说:“我们每次运行AI模型,都会认为它有着很大的威胁。”

卡尔森等人通过文献发现了一场暴发于1987年中国农村的疫情。那次疫情令很多学龄儿童感染并出现喉咙痛和手脚发炎的症状,但此后一直被人遗忘。直到几十年后,一组科学家对疫情期间收集保存的咽拭子样本进行测试,发现其中含有鼠痘病毒DNA。然而他们的这项工作虽于2012年发表,却几乎没有引发关注。如果卡尔森等人编写的计算机程序预测准确,鼠痘病毒就需要被重新审视。

科学界已经确定了大约250种由动物病毒跨物种传播而引起的人类疾病,例如来自黑猩猩的HIV引发艾滋病,由蝙蝠携带的SARS最终导致非典。

在科学家看来,理想的情况是在某个病毒溢出至人类以前就认出它来,但病毒学家所需要研究的动物病毒太多了,到目前已有1 000多种来自哺乳动物的病毒被学界确认,而且此数据很可能还不到真实数目的百分之一——部分研究者推测哺乳动物携带数以万计的病毒,另一些学者则怀疑这个数目高达几十万。

5.2.2

卡尔森博士的合作对象、疾病生态学家芭芭拉·韩

为识别潜在的新溢出效应,包括卡尔森博士在内的不少专家都在使用计算机寻找隐藏于科学数据中的模式。

卡尔森博士的合作对象、美国卡里生态系统研究所的疾病生态学家芭芭拉 · 韩(Barbara Han)表示:“AI模型就像研究者的另一双眼睛,帮我们看到原本看不到的维度。”

韩博士第一次接触机器学习是在2010年。计算机科学家几十年来一直致力于开发此项技术,并尝试利用它构建强大工具。如今,机器学习已经使得计算机能够发现欺诈性信贷以及识别人脸,但很少有人将机器学习应用于疾病预判。韩博士想知道可否用它来回答某些悬而未决的生物学问题,例如为什么不到10%的啮齿动物物种携带着已知能感染人类的病原体。

她向计算机输入有关啮齿类动物的信息(从断奶年龄到种群密度),然后机器就瞄准那些已知携带大量跨物种病原体的啮齿动物,寻找它们身上不同于其他鼠类的特征。

一旦计算机创建了一个模型,韩博士就可以把它用在动物身上,以测试其准确度,看看它给出的危险鼠类名单是否符合真实情况。最终,她发现AI模型的准确率高达90%。

接着,韩博士和同事转向啮齿动物身上尚未被发现向人类溢出的病原体,借助模型列出了一份高风险物种名单,其中北美西部的山地田鼠(Montane Vole)和北部食蝗鼠等物种极有可能是高危病原体的携带者。

在研究人员向计算机提供的所有特征中,最重要的是啮齿动物的寿命。短寿物种往往携带更多病原体,这可能是因为它们的演化动力将更多资源用于繁殖而非建立强大免疫系统。

韩博士等人在研究过程中梳理了生态数据库和学术文献,以寻找有用数据。最近,一些学者创建了专门用于给计算机传授病毒方面知识的数据库。

2022年3月,卡尔森博士和同事公布了一个名为VIRION的开放存取数据库,该库目前已收集50万条有关9 521种病毒及其3 692种动物宿主的信息,并且还在不断扩增库存。

像VIRION这样的数据库现可就新型流行病提出更具针对性的问题。当新冠病毒来袭时,卡尔森博士、韩博士和他们的同事创建了计算机程序,用以识别最有可能携带SARS-CoV-2相关病毒的动物。

SARS-CoV-2属于β冠状病毒属。这个家族还包括SARS和MERS病毒。大多数情况下,β冠状病毒会感染蝙蝠——2020年1月人类首次发现新冠病毒之时,已知有79种蝙蝠是β冠状病毒的携带者。但科学家们还没系统性地对全部(1 447种)蝙蝠开展搜索工作以寻找它们身上的β冠状病毒踪迹(此类项目需要数年方可完成)。

通过将各种蝙蝠的生物学数据(包括饮食和翅膀长度等)输入计算机,卡尔森博士、韩博士和他们的同事创建了一个模型,可预测哪些蝙蝠最有可能包藏β冠状病毒。他们借助模型发现了超过300种满足“藏毒”条件的蝙蝠。

自2020年开始预测至今,研究人员总共确认了47种携带β冠状病毒的蝙蝠——这47种全部位列该AI预测名单。

美国俄克拉荷马大学的疾病生态学家丹尼尔 · 贝克尔(Daniel Becker)也参与了β冠状病毒研究,用他的话说:“基于体型之类的简单特征就可实现对病毒的高效预测,这样的预测工具真的令人震惊。”

需要指出的是,如果专家确实发现了某个危险目标,他不能即刻宣称它对人类构成迫在眉睫的威胁。研究团队必须先进行大量实验来确认。

加州大学戴维斯分校的流行病学家普拉纳夫 · 潘迪特(Pranav Pandit)博士指出,这些AI模型在很大程度上仍是一项正在探索的工作,还不够完善,它们的预测比随机选择更优,但显然可以更优。“现在还不是可以大胆相信和发布此类预测结果的时候,我们还不能根据计算机的答案告知全世界,这是一种从动物传至人类的病毒。”

英国格拉斯哥大学计算病毒学家纳尔杜斯 · 莫伦策(Nardus Mollentze)和同事开创了一种可显著提高模型准确度的方法。他们的模型并不着眼于病毒的宿主,而关注它的基因。计算机经深度学习后掌握了洞察病毒基因的方法。对于那些可能感染人类的危险病原体,AI知道怎么找出其基因中的细微特征。

莫伦策等人的模型在超过70%的时间里都展现出准确识别危险病毒的能力。他们目前还无法阐清这个基于基因的模型如此优秀的原因,但也已略有头绪:人体细胞可以识别外来基因并向免疫系统发出警报,而能感染人体细胞的病毒或许具备模仿人类DNA以实现伪装的能力。

5.2.3

北部食蝗鼠是韩博士团队预测的一种携带危险病原体的物种

当莫伦策和同事将模型应用于动物病毒后,他们列出了272个具有高溢出风险的种类。这个数目对病毒学家而言太多了,他们做不到深入研究近三百种病原体。美国落基山实验室(RML)的病毒学家艾米 · 德威特(Emmie de Wit)负责监督关于SARS-CoV-2、流感及其他病毒的研究。用他的话说,“我们真的需要缩小范围”。

莫伦策博士也承认,他们需要找到一种确定最危险病毒的方法,“这只是一个开始”。

莫伦策正在与卡尔森等人合作,尝试将病毒基因的数据,以及病毒宿主的生物学和生态学相关数据合并起来。他们通过此方法获得了一些不错的结果,其中包括鼠痘病毒的跨物种风险。

其他类型的数据也可能提高预测准确度。例如,病毒最重要的特征之一是其表面包裹的糖分子。不同病毒有着不同的“糖被”模式。有的病毒可以利用糖被来躲避宿主的免疫系统,有的则能借助糖分子锁定新细胞,引发新感染。

近期,卡尔森等人发表评论称,机器学习可能会从病毒及其宿主细胞的糖被处获得很多见解。科学家已经掌握了大量相关知识,但尚未将其转化成可用于机器学习的形式。

德威特博士表示,“机器学习模型有朝一日可以指导像她这样的病毒学家研究动物病毒,它必能令我们受益无穷”。但德威特也指出,迄今为止的模型主要集中于病原体感染人体细胞的可能性,而在引发新的人类疾病之前,病毒还必须实现人与人之间的传播,且能引起严重病症——她等待着能设计出这方面预测的新一代模型。“我们真正想预测的,不一定是哪些病毒会感染人类,而是哪些病毒会引发疫情。”

资料来源 The New York Times

——————

本文作者卡尔·齐默(Carl Zimmer)是美国资深科普作家,《纽约时报》专栏作家。