智能接口

发布时间：87年10月26日

田中穗積编译黄玉雄

1. 前言

“智能接口”这一用语是在第五代电子计算机调查阶段发表的计划书中初次出现的。为了使计算机模仿人的智能功能，需要有一个人与计算机之巧的会话形态。谋求高度的计算机输入输出接口功能以便通过自然形态即自然语言、语音、图像进行人机之间的会话，是第五代电子计算机研制中的一个重要研究课题。我们称之为智能接口研究。

美国曾出现过ELIZA（自然语言）对话系统。该系统着眼于人们对话中的特定单词，输入输出预先准备好的问句，再接上“那么”的话碴进行会话。它能进行极其简单的语言处理。由于这种系统显示了人机进行自然会话的可能性，曾引起人们的注目，但这种只进行简单语言处理的系统与“智能接口系统”还相差甚远，真正的智能接口系统必须具有理解对话句的功能。

然而，“理解”这一词的意义还不十分明确，为了在系统中进行和人同样的“理解”需要了解人理解自然语言、语音、图像的过程。这与人类的认知结构密切相关，是认知科学（cognitive science）研究的重要课题。智能接口系统是一个跨学科的研究领域，其中有一些需要长期研究的课题。最近的研究表明，“理解”的前提首先是存在丰富的“知识”，它包括：

（1）在系统中以什么形式表现知识的知识表现形式和知识库的问题。

（2）何时，以何种方式利用知识解决问题的推理、问题求解的问题。

（3）将丰富繁多的知识存储在知识库中的知识获取问题。

这些问题相互关联，成为八十年代人工智能研究的主要课题，第五代计算机计划中把它们总称为知识信息处理（Knowledge information processing）问题。

从上述说明，我们可以知道，智能接口系统是一个通过自然语言、语音、图像提供人机自然对话手段的系统，实际上可以这样说：智能接口系统就是自然语言理解系统、语音理解系统、图像理解系统的总称。

2. 智能接口系统的体系结构

智能接口系统的体系结构如图1、图2所示，我们知道，自然语言和语音与人的语言理解结构直接关联、图1是自然语言和语音智能接口系统的体系结构，它的功能有以下三个部分：

（1）语音、自然语言解析/合成系统（2）推理/问题求解系统（3）知识库系统

（1）的语音解析包含了声音波的物理解析（音响分析）。图1中，可以看到自然语言处理的流程。

解析输入到智能接口系统的句子时，要利用存储在知识库中的语言学知识'（语法、辞典），还要借助推理/问题求解系统。解析的结果，如果输入句是问句，则要通过语言生成系统作成解答句表示出来，如果输入句是陈述句则要把语言解析的结果作为语言理解的结果存储在知识库中（知识获取），同时回答“明白”。这时还可能出现系统不能理解的情况，这时就得依靠人提出质问。

这里需要说明：为了利用语言学的知识解析输入句的语言，必须借助推理/问题求解系统。从图1可知，这里的推理/问题求解系统不是语言解析专用系统（分析程序），而是通用的推理/问题求解系统，最近的研究表明，可以用通用的推理/问题求解系统代替分析程序的语言解析专用系统（如图3），这就大幅度地减轻了编制语言解析系统的人力。

图2是第五代计算机计划阶段发表的图像智能接口系统的体系结构。直接输入图像以后，利用图像解析系统进行各种处理，然后存储到知识库中。

图2的图像智能接口系统与图1的自然语言/语音智能接口系统不同，它可以把输入的图像原封不动地作为原数据存储在知识库中、因此该系统中的编辑/检索系统就显得十分重要。系统使用者可以通过它从知识库中检索、编辑所需要的图像。

比较图1和图2可以知道，理解图像还是比较困难的。这是因为，与自然语言理解的结构比较，图像理解的结构反映的内容含有许多未能解决的问题。例如，相当于自然语言解析的语法和辞典部分在图像理解结构中是什么，是不_没有，等等。不过，我们也能看到，图2也和图1一样，命以分成以下三个部分：

（1）图像解析/合成系统（2）推理/问题求解系统（3）知识库系统

说到图2的知识库，还有一点需要说明，我们知道，图像是两维数据，需要存储大量的原数据。所以，图2的知识库必须是具有大存储容量的知识库。

3. 智能接□系统的事例

3.1对象范围的限定

以下我们列举自然语言智能接口系统探讨一下系统处理的对象范围。如前所述，利用自然语言的智能接口系统在人工智能研究中称为自然语言理解系统，如果狭义地解释自然语言理解系统，可以称作质问应答系统。从实用的观点来看，自然语言质问应答系统的开发是一个重要的课题。

用自然语言向数据库询问是自然语言质问应答系统的惯用手段。为了使询问顺利进行，首先要限定问句的类型和单词的种类，所以：

（1）不需要开发大规模的语法规则。（2）不需要开发大规模的辞典。（3）不需要在辞典的词条中编入过分详尽的知识。（4）作为（1）、（2）、（3）的结果，不需要开发大规模的知识库。（5）有可能缩短语言解析、推理/问题求解所需要的时间。

在第一章中，我们已经讲到，自然语言智能接口系统的实现首先要解决语言理解的问题，语言理解还存在着一定的困难，这意味着自然语言的解析/生成技术还未成熟，因此，目前的现状是，限定系统处理的对象范围，加以（1） ~ （5）所述的制约，从而掩盖目前自然语言处理技术的欠缺。目前，美匡在这方面已经开发了商品化的系统。但是，这种系统与智能接口系统比较还有一定的差距，这些差距表现在：

（1）对话者可能输入与系统设定的语法规则不符的句子，这时需要有妥当的处理技术，但这方面的研究还有欠缺。

（2）思索对话的流程进行应答，这方面的研究还不够，为了顺利地进行这种应答，需要系统把握对话者的意图。这就意味着系统本身要有一个对话者的模型。通过这个模型努力消除对话者的某些误解。这方面的研究还处于初级阶段。

为了进一步探讨（1）和（2）的问题，我们在下一节阐述一下解析/合成技术。

3.2解析/合成技术

自然语言的解析/合成技术，大致有以下几类：

（1）词态解析技术；（2）句法解析技术；（3）意思解析技术；（4）文脉解析技术；（5）文章生成技术

词态解析是认定构成输入句单词的过程。要参照辞典进行，英文中，有名词复数形式的词尾变化、动词的时态变化等，查找辞典时，一般没有这些变化形式，这就需要把变化了的形式还原成原形。日文中，除了活用变化、音便变化的语形变化问题外，还有另外一个问题，就是由于单词与单词之间没有空白，难以进行单词的分割（自动分割），最近，随着日文单词处理技术的发展，词态解析的技术也得到改进，从而提高了词态解析的精度。

词态解析完了以后，再通过句法解析来看句子是不是由符合语法的单词排列而成的。实际上，这主要是调查构成句子的单词品词排列是不是符合语法的操作，由此可以认识句子的句法结构（主谓关系、修饰被修饰关系等），句法解析可以设计成各种算法，技术性的问题较少。我们把句法解析系统称作分析程序（Pa-rser）。第五代计算机研制中提到的逻辑型程序的结构和句法结构的解析有一定的关系。就是说，只要以一定的形式（DCg，Definite Clause Grammars）记述语法规则和辞典条目，就可以轻而易举地把它变换为逻辑型程序。而且，如果给出句子、执行该程序，就不必另外编制分析程序，得到句法解析的结果（图3），这一点我们在后面还要谈到。

从上面所述的情况，我们看到，已经开发出的句法解析系统是比较先进的。句法解析中一个关键的问题就是编制用于句法解析的大规模语法规则。一般地说，随着语法规则数量的增加，语法规则体系中的暧昧性也必然增加，从而得出多种解析结果，所以，为了竭力排除不必要的句法解析结果，开发大规模语法规则必须要建立智能接口系统。

图4是一个句法解析中不能排除暧昧性的例子。图4（a）的意思是“用刀割纸”，图4（b）的意思则是“割带刀的纸”，从意思上讲，前者是妥当的句法解析结果，后者是异常的句法解析结果。

意思解析有以下功能：（1）从意思上排除异常的句法解析结果。（2）择出意思结构。

为了排除图4（b）的异常句，智能信息系统首先要懂得“带刀的纸”不能成立这一常识，把这种知识存储在知识库中，解析意思时取出使用。

从图4（a）择出的意思结构如图5所示。图5中，对动词cut而言，目的语paper和前置句with a knife分别表示object（对象语）、instrument（道具格）。

由上述阐述可知，从图4（a）择出图5的结构、必须要有“用刀可以割纸”的知识。所以，意思解析中，必须将这种知识体系化，存储在知识库中。日本第五代计算机研制计划决定开发电子化辞典，这种辞典可容纳包含许多常识的丰富知识。

前面我们讨论了意思解析和知识的关系，在讨论中把一个句作为对象，但人类和人工智能接口系统的对话往往是由若干个句的系列（对话系列）组成的。对话的基本步骤是，理解前面的对话内容、回答对话者。所以，超越了单句的文脉解析技术是不容忽视的。

为了使对话顺利进行，智能接口系统必须要有这样一个模型，该模型要推测对话伙伴（人）是带着什么意图来对话的，对话者对于对话的主题具有何种程度的知识（见图6）。在这个基础上就可以决定含在提问句中的指示代名词或连体词所指示的内容，推论不直接含质问的事实，准备后续的提问句。这就是文脉解析的重要功能。

文章生成技术是一个把推论得出的结果编成文章输出的技术，在提问应答的场合，常用的方式是准备若干个回答的参数。

4. 结束语

笔者认为，在prolog为代表的逻辑程序结构中考虑智能接口系统的问题是很重要的。prolog是由逻辑学家和计算机专家基于谓词逻辑设计而成的描述性语言，这种语言与其他命令性高的语言比较主要有以下特点：（1）程序不要求说明运算时的执行程序，只需要描述清楚事物间的逻辑关系，因此，易于构成、易于理解、易于适应各种目的的应用。（2）程序和数据都是树形结构，语句既可表示程序又可表示数据由程序输出的数据，可以用来驱动新的程序。这种数据与程序结构统一的特性，使Prolog语言书写的程序成为一种智能型程序。（3）由于它具有描述性的语义，语句中的变元既可作为输入用又可作为输出用。（4）其解释系统采用模式匹配和回溯追踪技术，自动地实现问题求解，从而使它具备了比其他高级语言更高级的推理功能，成为一种更接近于人类自然语言的语言。（5）语句种类少，只有事实（fact）、规则（Rule）和提问（question）三种，容易为用户所掌握。

由于具备了上述特点，Prolog在智能接口系统的应用中语义清楚，表达能力很强。回顾一下自然语言智能接口的研究就可以知道，解析自然语言的程序几乎都可以用prolog来代替，推理/问题求解系统也可由prolog的编译程序替换，从这些事实中，可以得出结论：在逻辑型程序的结构中考虑智能接口的诸种问题是非常有意义的。

[计测と制卿（日）1986年4月]