[编者按]中国科学院上海冶金研究所研究员、理论化学家陈念贻近年在计算机化学方面做了不少工作。特别值得注意的是他在化学模式识别等方面的工作,除了理论意义之外,还有较广阔的直接应用的前景。为了让更多的读者了解陈念贻对发展计算机化学的意见,本刊记者访问了他,下面是陈念贻同志的谈话。

2

为了迎接新的技术革命,中央号召大力推广微电脑。在这一形势下,我们计算机化学工作者应如何适应形势,更好地为四个现代化服务?我是1976年底开始搞计算机化学的。八年来,在“化学模式识别”“计算机模拟溶液结构”和量子化学计算三个方面都做了些工作。“计算机化学”面很广,许多方面如化学实验的微机控制等我都没搞过,所以我的看法也难免不全面。我想就以我们搞过的一些工作为出发点,谈谈个人看法。

1974年国际上提出一个新名词,叫做“化学计量学”(Chemometrics),这是一门边缘学科,其目的是从化学测量(化学实验)结果中更有效地抽提信息,进而解决更多的复杂化学课题。化学计量学中一个重要分支,就是“化学模式识别”(Pattern Recognition in Chemistry)。这几年国际上以计算机应用为基础,已搞得很热闹了。国内注意的人还不多。我们从1976年起做了八年工作,体会到这是一门应用推广潜力很大的学科。

化学是和物质生产打交道的学问,各种各样的化学实验、化学测量,给我们提供了丰富的信息。现代化学实验已发达到这样的程度,只要一小块样品,就能分析出几十种主要的微量元素,测出光谱、波谱、电子能谱……等反映其成分、结构、表面情况等几十种谱线。当一个工程师拿到一块和技术问题有关的样品、一个地质队员拿到一块矿石样品、一个医生从病人身上取到样品,或是一个公安侦察员从犯罪现场找到一张纸片、一滴血迹的时候,他们都会送样品到化学实验室去,测出一大批数据和谱线。他们当然希望从这些数据和谱线中看出问题来,以便解决生产关键、找到矿床、判明疾病种类,抓到罪犯等等。可是实际上问题往往不那么简单。往往化学数据一大堆,却理不出头绪、换句话说:信息量很大,要从中抽出有用的结论可不容易。计算机可能帮助解决这个“信息流瓶颈”。而化学模式识别技术是很有用的。

为了基础研究的需要,早在1976年我们就和上海计算技术研究所江乃雄等同志一起掌握了计算机模式识别程序。后来,我们逐渐认识到:化学模式识别方法不仅化学键理论研究有用,在许多重大实用问题上也能发挥作用。于是我们在坚持基础研究的同时,注意这一“副产品”应用。但在推广应用中,我们也注意人力物力安排,不要影响我们的基础理论工作。

我们认识到化学模式识别用途很广,一开头并不自觉。1978年我到贵阳参加全国地球化学会议,我讲了模式识别。地质部石油勘探综合大队一O—队的工程师程志纯对我说:“相信你这个方法能帮忙找石油”。原来石油勘探是一个多因子的复杂问题,生油条件和储油条件反映到地层的物理,化学信息之中。利用化学信息帮助找石油的“化探方法”现在是越来越重要了。程志纯的勘探积累了大量有关石油勘探的化学信息,很适合于用模式识别搞。因此我们就合作起来,处理了我国九个油区地下水化学成分的资料,找寻它和储油的关系。原来的数据用人工观察觉得七高八低看不出规律,用模式识别一做规律就很明显。对于石油勘探,我原来是一无所知的,这些规律当然要地质勘探队的工程师们“拍板”。由于不少地质工程师认为这确实对找石油有用,就使我们体会到模式识别在石油或其他矿藏的化学探矿方面确有较大应用前景。1981年,在合肥召开的“全国油田水化学会议”上,介绍推广了这种计算机化学协助找石油的方法。在这个基础上,更多的地质工程师来找我们:能不能用模式识别方法区分煤成天然气和油成天然气?能不能用模式识别方法判别古海岸的位置?能不能用模式识别方法区别不同的生油岩产生的油层?我们相信,只要有足够可靠的、大量实验数据,这些事都可以试试。

化学计量学在临床化学中的应用已经是国际上近年来的热门课题了。我们接触这一问题也有个过程:1982年一次国际化学致癌会议上,我讲了一些模式识别方法研究化学致癌的研究结果。会上医学界的代表建议我们用模式识别搞癌症普查和早期诊断。近两年来,我们和协作单位一起,用模式识别方法处理微量元素和癌症关系的资料,得到了很明显的规律性。和我们协作的华中工学院徐辉碧同志,用模式识别研究人头发中八种微量元素和肺癌的关系,发现用模式识别方法能大体上区分健康人、肺癌早期患者和肺癌患者。我们还和赣南医专朱慧福等合作,用模式识别处理血液交叉免疫电泳曲线、能将38例健康人和34例肝癌患者区分开来,正确率接近90 - 100%。最近瑞典人Wold也用模式识别方法处理脑组织气相色谱数据,能区别脑癌和健康脑组织。看来用模式识别处理临床数据,作癌或其他疾病的诊断是很有希望的。

化学计量学应用于临床,不限于模式识别处理数据。还可以研究“检验方法设计”。用信息论的概念找寻最有效,最经济的诊断方法,可惜据我所知国内尚无此类工作。

食品工业是模式识别应用的又一活跃领域,美味食品成分非常复杂。过去只能靠品尝决定烹调技术和食品生产工艺,现在有了模式识别,就有可能将食品的理化检验指标、数据、谱线等和食品的味道挂起钩来,使烹调技术变成科学。我国烹调技术世界闻名,理应在这方面做出贡献。我们最近在啤酒味道和理化指标方面做了一点工作,表明这方面是大有希望的。

国际化学计量学会(International Chemometrics Society)是1974年成立的,现已发展到31个国家,学术活动相当活跃(陈念贻同志是该会第一个中国会员——编者注)。这个学会的发起人柯瓦斯基(Kowalski)是分析化学家。化学计量学有时被看成分析化学的一个新分支,其实它的范围已超过分析化学的范围了。我们不妨再回过头看看苏联的情况。苏联发展模式识别在化学上的应用也较早,不过带头人却是冶金学家和石油化工专家。苏联科学院冶金研究所沙维茨基(Савицкий)教授多年来研究合金化学,在超导材料方面有很深造诣。他由于痛感新材料研究的“炒菜”方式太费时费工,七十年代中期就致力于用模式识别方法帮助找新材料。找寻高温合金是一项费时费工的研究。不但要“炒菜”配方,而且对每个样品往往要做几千小时的高温实验才能下结论。沙维茨基用模式识别方法配合实验工作,可以较早地发现实验数据中的趋势,使下一步实验的命中率提高。据沙维茨基宣称:这样做可将实验工作量减少一倍之多。苏联科学家约费(Иоффе)是石油化工权威,他致力于借助模式识别方法找寻新催化剂。催化剂是石油化工的“命脉”,一般化工厂也多半要用催化剂,研制新的催化剂可以得到很高的经济效益,催化剂一般成分复杂,制备条件变化多端,而且已积累了大量实验数据。对于这类问题,模式识别也应当大有用武之地。据苏联文献,他们用模式识别帮助筛选的一种催化剂,早已投入生产。值得一提的是:西欧的化学计量学中心,近年来也开始用模式识别方法研究合金和超导体。另方面,沙维茨基也提到:他用于合金研究的程序,也可用于勘探石油。这确实令人有“殊途同归”之感。

模式识别是一种信息加工技术。它不能离开大量实验数据。在工作之初,先要收集大量实验数据,利用模式识别从中找规律。这叫做“训练”过程。计算机接受“训练”后,就能判别“未知”。由此可见:将模式识别技术和数据库(Data base)技术结合在一起,应当有极其光辉的前景。因为那样一来,就不需要“用户”提供训练点了。未来的带模式识别程序的数据库,能根据用户的需要,自动地从库中调集数据实行“自我训练”,然后预报未知,为用户提供咨询。自从1979年以来,我一直在鼓吹模式识别和数据库的结合。我以为这样做可以给新材料研究带来近期效益。据了解,我国许多材料研究单位和化工研究单位的研究人员做了大量实验数据,也搜集了大量文献中的数据,去完成某项目。项目完成或中止后,数据流失浪费惊人,即使存了档,也是“死”的,很少有人再翻阅利用。如果一个搞超导研究的单位,或是一个搞催化剂的单位,能建立一个带模式识别功能的数据库,连同文献检索一起搞,那就会逐步成为研制工作的“信息中心”,不但避免了目前惊人的“信息浪费”,而且能发展成一个信息产业。研究机构搞这种“信息生产”,可能比搞材料,元件等物质生产更合适,更有前途。

模式识别和数据库相结合,需要大型或中型计算机,要有一支技术队伍和较大的工作量。是科研中的“重工业”。另外一方面同样有前途且能速效的,则是利用微电脑和模式识别程序解决各式各样的实际问题。我们编了一套“化学模式识别微机程序”(又名“多因子判别法微电脑程序”),准备普遍推广。但凡是有大批化学实验数据,影响因素又多的复杂问题都可以试试,根据我们自己的体会和国外的经验,这套微机程序在化工、冶金、新材料研究,催化剂筛选、医疗诊断、地质勘探、商品检验、食品工业、香料研究、考古、环境保护、生产技术管理和公安侦查等方面都可能找到用处。我相信,在推广应用过程中,还会有不少原来想不到的用处。举例说:农业化学中也有很多多因子复杂问题,模式识别或许也有用武之地。

国际化学计量学会除召集了多次学术讨论会外,也注意化学计量学的教学。根据学会出版的“化学计量学通讯”报道,西欧化学计量学研究中心之一——荷兰宁美根(Nijmegen)大学从1974年开始就开化学计量学课程,其内容除化学模式识别外,尚有信息论、取样理论、实验设计等。化学计量学创始人柯瓦斯基教授指出:“当所有化学家学会使用统计和数据处理的高级方法时,他们就会更精确地测量数据,并能从中抽提更多的化学信息……,如果所有化学家都认为自己也是化学计量学家,他们就会取得更大成功”。随着计算机特别是微机的推广应用,我想我国的大学里也应该开设化学计量学课程。

最后,我想谈谈我们在计算机化学基础研究方面的一些看法:计算机在量子化学中的应用,是大家熟知的了。我们近年来搞的另外两个领域——化学模式识别和计算机模拟在液态和溶液理论中的应用——国内研究的人还不多。化学模式识别除了前述各种应用外,它也是化学基础研究的有力武器。我们近年来用模式识别方法总结金属间化合物的规律,在计算机预报指,导下已合成,发现了一批新的稀土和过渡元素间的金属间化合物。我们还用模式识别总结非晶态合金形成条件的规律。在规律指导下制出了新的非晶态合金,而且对非晶态理论也有所启发,我们还用模式识别总结蛋白质一级结构和二级结构的关系,根据一级结构预报蛋白质二级结构,也获得初步成功。用计算机模拟液态和溶液的结构和性质,我觉得也是一个很有前途的研究方向。只要看一看近年来的化学物理、物理化学方面的国际刊物就会注意到:用Monte Carlo方法和分子动力学方法(Molecular dynamics method)研究溶液理论和其他化学问题的论文日益增多了。我想:注意将模式识别方法,Monte Carlo方法,分子动力学方法和量子化学计算方法配合起来,同时也和各种现代结构化学实验方法(如ESCA、正电子湮灭、M?ssbauer谱等等)结合起来,解决一些材料科学和生命科学的重要课题,应该是我们的努力方向。

[江世亮整理]