郝沛
中科院巴斯德研究所研究员
梅开二度的抗疫先锋
2020年疫情暴发后,中科院上海巴斯德研究所郝沛的名字再次响起来,她领导的课题组在新冠病毒肆虐的第一时间就参与了病毒的基因组数据分析工作,提供了关键的分析数据。包括《中国科学报》、央视新闻、澎湃新闻等媒体都报道了郝沛及课题组的贡献及奉献精神(整个春节期间郝沛及其同事都在为新冠病毒的数据分析而通宵达旦工作)。其实这不是郝沛第一次为媒体所关注。17年前,在那场全球科学家为尽快测定SARS病毒结构并做数据分析的竞争中,赵国屏院士领导的团队在第一时间给出令人信服的数据和分析,相关工作在《科学》(Science)、《美国国家科学院院刊》(PNAS)等权威杂志发表。其时,27岁的郝沛参与了生物信息学方面的数据提供、分析工作。作为作者之一,郝沛的名字出现在国际顶尖杂志上。也正是凭借这样出彩的工作,2004年郝沛申报启明星的答辩成绩在参评者中排名第一,尽管那是郝沛第一次参加课题申请答辩。
因为启明星的向心力,也因为被访者爽朗的性格,相约郝沛采访进展很顺利。那天来到郝沛的工作室,20平米不到的房间,除了临窗的写字台,一大半空间是小会议室的风格,冰箱、咖啡机等一应俱全,每次客人来或是每周的组会以及郝沛和课题组成员的讨论大都会安排在这里,主人的热情,浓香的咖啡给每一位来者留下美好的印象。我们也是在这样温馨可人的气氛里开始了这次启明星访问。访问一共进行了三个多小时,结束时郝沛说这是她第一次把自己的经历谈得那么多且详细。
少小多独立,哥哥是榜样
1975年9月,郝沛出生在陕西省宝鸡市。郝沛的父亲是文革前的大学生。郝沛的母亲是小学老师,工作后考入中国人民大学并完成在职本科教育。郝沛有一个大自己两岁的哥哥,高考时哥哥考进上海交通大学电机系,以后又赴美国杜克大学拿到博士学位,现在任南方科技大学计算机科学系主任。哥哥一直是郝沛学习和追随的榜样。郝沛的记忆里,父亲在子女教育方面非常传统且坚持,他认为学习理工科未来才有出路。
郝沛的童年可以用独立早、读书早与成熟早来概括。她从小学一年级就开始自己照顾自己,比如自己安排晨跑、吃饭、洗澡与学习。令郝沛记忆犹新的是小学四五年级时妈妈在北京念书,她就自己拿着饭菜票去食堂吃饭。初中一年级,父亲调到江苏常州河海大学任教,举家迁至常州生活。郝沛很快适应了在南方的生活与学习。高中时期的郝沛继续着努力学习与全面发展的势头:学习成绩全班数一数二,并一直担任班长,获得江苏省中学三好学生荣誉以及奖学金资助等等。高考前夕,郝沛获得直升大学的机会,但她放弃了。郝沛回忆道,她高考同时代的人对于考大学是有综合考量的,比如把大学所在地域与未来工作事业所在地联系起来等。她心中的“圣地”是清华,但或许是因为父亲与哥哥对自己的影响,郝沛最终报考了上海交通大学。1993年,郝沛被上海交大电子工程系微电子大规模集成电路专业录取。大学四年,郝沛觉得学习压力很大。她所学的电子工程专业课程多,作业多,郝沛坦言自己学得非常累而苦。临近本科毕业时,郝沛坦言自己当时没有方向,参加了考研并没有通过,但是读研究生确实是她内心一直向往的目标。
软件工程起步,进入生物信息门
在考本校研究生未果后郝沛选择了就业。中科院上海分院网络信息中心向她伸出了橄榄枝,彼时Windows刚问世,郝沛加入中科院不久就承接了中科院信息管理系统的软件开发任务,受命开发中科院财务软件系统。为此郝沛那段时间(1997—1998年)去了中科院在合肥、武汉、长春的几个研究所,也就是在那时她认识了当时武汉植物所的副所长钟扬老师。
1999年至2000年,中科院上海生命科学研究院成立,系统生物学、生物信息学这些新兴学科方向得到重视。在赵国屏院士的力推下,上海成立了生物信息中心,由当时刚从德国引进回上海的李亦学教授担任主任。那段时间也是中国生物信息学发展的起步期,郝沛说她是幸运的,赶上了这一波发展的潮头,参加了李亦学老师领头的生物信息平台。初试身手是2001年为韩斌老师的水稻基因组提供数据分析支撑。在那段时间还做过拟南芥、老鼠、乳酸菌、水稻到人的基因组数据分析。
经过几年的实践历练,郝沛对自己从事的提供数据分析工作的本质意义有了更深的理解:数据分析并非只是简单地提供工具,而是要提供整个过程中对数据逻辑体系的把握。简言之,对被测数据(如病毒)做出分析,实际上是要回答该数据说明什么问题。做到这一点就要求数据分析者要把所有的已知知识综合进来,包括以往对病毒的认知,知道为什么要这么做,突破点在哪里等等。而要达到这样的效果,除了需要非常广的知识面,和课题组专家的讨论也是至关重要的。
学会用数据说话,首次亮相顶尖杂志
郝沛以2003年赵国屏院士做SARS病毒结构的生物进化分析为例介绍说,当时新加坡科学家围绕SARS病毒和进化的关系先发了文章,但他们的病毒样本是晚期患者的,早期的样本在广州。赵老师当时从广州得到从早期到晚期的多个样本,他希望能覆盖早期到晚期的全过程,了解这个病毒是怎样从动物跳跃到人身上的整个适应过程,而要达到这样的效果就要有相应的逻辑体系来描述哪些突变对适应性是重要的。SARS病毒进化分析是一个理论性非常强的领域,以前没有做过进化的郝沛领受任务后就和不同的人讨论来加深理解,包括和研究过植物进化的钟扬就有过很好的讨论。最终这篇讨论并阐明SARS病毒结构与生物进化相关性的论文在《科学》杂志发表。赵国屏院士是这篇具有里程碑意义的论文的通讯作者,郝沛作为数据组主要成员列为共同第一作者。
尽管郝沛属于最早进入生物信息学领域的那批人,但是由于没有海外留学经历,没有博士学位的她要想在强手如林的中科院立足还是非常不易的。同时,无论生物信息、数据分析有多重要,在生命科学这条主线里只是配角。郝沛如下这段听似牢骚的话客观道出了她当时的心境:我们总是在为别人做嫁衣。别人少不了我的分析,但是生物信息工作的属性就决定了从业者无法也不可能专注、深耕于某一个领域(就如以上提到的测试对象从拟南芥、老鼠、乳酸菌、水稻到人一直在转换)。简言之,虽然我从事的是不可或缺的工作,但是我的工作永远在做配角。虽然今天的郝沛对此的理解可能又深了一层,或者说更豁然了,但是生物信息学、生物数据分析的地位和作用应该得到应有的理解,从业者的创造性工作应得到更多认可和尊重终究是一个需要面对的问题,因为没有出色的配角支撑,主角也无从确立。
而立之年念博士,36岁任职PI
2004年1月钟扬老师推荐她作为谈家桢院士的学生,实际上是挂在谈老的名下(谈老当时每年可带2名学生),带教导师是钟扬老师。2004年1月到2009年1月,郝沛完成了生物信息博士的全部硕博课程后毕业,进入吴家睿教授领导的中科院系统生物学重点实验室,主要还是跟着李亦学老师做生物信息数据分析。其时,中科院在推广以PI为单位的课题组长负责制,PI的门槛是要有研究员职称。尽管拿到了博士学位,也有过原创性的工作,但因为没有海外留学背景,郝沛很难得到研究员职位。2012年,急需生物信息方面专家的中科院巴斯德研究所向郝沛发出邀请,同意给她研究员职位。到了巴斯德所后,郝沛很快确定了聚焦病毒和免疫的科研方向,因为在郝沛看来免疫的复杂性可以与神经、脑相提并论,是一个可以不断开拓耕耘的领域。就这样,36岁的郝沛博士终以PI身份带领一个课题组在自己认定的领域潜心耕耘。此后凡有新发现的病毒,郝沛课题组都会积极参与。如2013年和上海公共卫生临床中心(简称上海公卫)合作做了H7N9的病毒发现工作。当然更主要的,也会载入中国科学家抗疫史册的是这次新冠疫情暴发以来郝沛与她的团队做的工作。
参加巴斯德研究所博士生毕业典礼
紧盯新冠病毒,第一时间出结果
2020年1月11日,上海公卫张永振研究员发布了新冠病毒全基因组数据。得此信息的郝沛带领课题组当天就开始分析。12日郝沛与她的同事们就把该病毒的传染机制搞清楚了:和SARS很接近。第二天郝沛就向所领导和赵国屏院士汇报。赵老师让郝沛赶快联系合作者做进一步合成ACE-2蛋白的验证。计算结果提示这个病毒从能进入人体这件事而言和SARS是一样的。在病毒进入、复制、包装、释放整条链上,郝沛他们主要从进入这块分析。当时已临近春节。郝沛全无过年的心思,一心只想着赶快做出来、写出来。1月16日晚文章写好,投给《中国科学》,21日正式在线。这篇文章是这次疫情暴发以后国内外最早问世的讨论新冠病毒结构的论文,也是顶着巨大压力的产物。
特大城市环境病毒组数据库建设刻不容缓
紧接着,郝沛课题组又和营养健康所合作,开发了能对医院提供的数据做进一步分析的“云上高通量测序病毒鉴定分析系统”。只要把病人的样本、测序结果放到云上,研究人员就可以做出分析。郝沛主要承担系统开发,并把流程提供给需要的用户。从大年初四开始开发这个系统,2月中旬就公布启用了,目前上海公卫都是利用这个系统做分析。郝沛介绍这个系统不局限于分析新冠病毒,还可以分析所有基因组的病毒。此外,从2019年起郝沛就向上海市科委等有关部门提出要建人口高密度城市的环境病毒组的数据库,并得到了中科院立项和有限的经费支持。郝沛认为这是一个需要持续做下去的抗病毒基础性工作,第一步先要做每年会暴发的流感病毒。有了积累,以后有新发病毒就会有应对的底气。郝沛也想借这次启明星采访再提一下建设人口高密度环境病毒组数据库的重要性,希望能得到有关部门的重视和支持。
2020年1月,新冠疫情暴发初期在工作室加班
这次新冠病毒再次给我们所有人敲了警钟,各种病毒在人群密集的特大城市暴发会是一个大概率事件,痛定思痛,在对病毒的基础性研究和防控方面加大投入既刻不容缓,也是一本万利的治本之策。从这个意义上说,这次启明星采访受访者郝沛博士以上一些坦诚的进言希望得到更多的关注、理解和支持。
侯璟琼、江世亮采写于2020年10月26日