计算论辩技术：迈向智能人类辩手之路

发布时间：23年05月28日

魏忠钰

论辩（Argumentation）旨在研究人们在语言、文本中蕴含的逻辑论证过程，是一项涉及语言学、哲学、修辞学、逻辑学等多门交叉学科的研究领域。相关研究工作最早可以追溯到亚里士多德时期。近年来，随着计算语言学的快速发展，传统语言学中的论辩相关领域也引起了学者的关注，并催生了一个新的研究方向——计算论辩学（Computational Argumentation）。

计算论辩学试图将人类关于逻辑论证的认知模型与机器自动化的计算模型结合起来，以赋予人工智能系统理解人类辩论推理过程的能力。此外，近期的许多研究还通过应用自然语言处理相关的技术和资源，在当今的海量信息中对论辩性文本进行分析，反过来对传统的论辩提供了数据、实例驱动的结论，如对于文本风格、论辩策略等对论辩说服力、论辩质量的具体影响，扩充了论辩学理论的实践研究。计算论辩学的兴起，使得传统论辩学和计算语言学两个原本相对割裂的研究领域产生交融，为二者同时注入了新的活力。本文将按照经典论辩理论、独白式论辩任务、对话式论辩任务和论辩应用这样的组织结构，为读者提供一个计算论辩研究的全景综述。

论辩理论

计算论辩往往从经典的论辩理论出发，研究自动化论辩性文本的深度理解和生成。其中，最被大家认可的研究框架包括图尔敏框架和事实-政策-价值框架。

图尔敏框架图尔敏框架于1958年由非形式逻辑理论先驱斯蒂芬 · 图尔敏（Stephen Toulmin）提出，是最早的论辩分析理论之一，也是目前应用最广泛的理论框架之一——不仅包括计算论辩，也包括各种专业评论与论文的写作。这一理论将论辩文本中出现的论辩单元分为六大要素：主干要素包括主张（claim）、事实材料（grounds）、保证（warrant）；补充要素包括支援（backing）、模态词（qualifier）、例外（rebuttal）。主干要素是图尔敏框架的核心，有了这三类元素就可以组织一篇独白或一场对话。主张（也可称为论点）顾名思义是辩方提出并希望论证的观点，而证据则是支持这一观点的材料。正当理由（或隐含假设）看起来既像论点也像论据，实际上是用于说明证据和主张之间的关系的，可以看作两者之间逻辑桥梁的桥墩。作为一种经典的论辩分析方法，图尔敏框架是基于长篇辩论发展而来的，适用于论文、评论、辩论赛等辩论文体或场景。然而随着社交网络和自媒体的快速发展，短篇的来回辩论成为这些场景下论辩文本的主流，此时图尔敏框架就显得有些不便。

图1 图尔敏模型示例

事实-政策-价值框架 事实-政策-价值框架最早由霍利汉（Hollihan）和巴斯克（Baaske）于2004年提出，是从决策理论中发展得到的论辩分析框架。他们将论辩单元分为事实（fact）、政策（policy）和价值（value）三大要素，近似于图尔敏框架中的证据、主张和正当理由，但组织方式有所差别，例如事实之间、价值之间可以相互支持。此外，这一框架还将要素之间的关系分为理由（reason）和证据（evidence）两类，其中理由表示对政策与价值的支持，证据则是对事实的支撑。由于事实-政策-价值框架最初是为了分析单方面决策过程，框架中没有明确对驳论建模，使得该理论主要应用于单论点论证文本的分析。

独白式论辩

早期对于计算论辩学的研究主要集中在独白式论辩方面，研究仅包含单个参与者的辩论性文本，如学生议论文和主题演讲等，旨在挖掘参与者文本中各组件（如论点、论据等）之间的组织结构关系。相关的研究包括论元部件检测、论点边界预测和议论文自动评分等。进一步的，研究者开始关心论辩性文本的质量评估问题。

论辩挖掘 论辩挖掘的主要目标是自动地从文本中提取论点（argument），以便为论辩和推理引擎的计算模型提供结构化数据。一种典型的论点结构包括两个主要子部件（前提和主张）和连接子部件的推理规则。论辩挖掘任务的目的则是从输入文本中找到所有的主张、前提并建立它们之间的逻辑联系。图2展示了论辩挖掘的任务流程示意图。它主要包括两个子任务，论点部件检测以及论点结构分析。

图2 论辩挖掘任务流程

当前针对文本分析的主流研究方向是情感分析，关注用户对于特定事件或目标物体的态度。论辩挖掘则旨在进一步对用户产生这个想法的原因进行剖析，挖掘用户的逻辑推导过程，以实现对文本的深度理解。论辩挖掘的相关技术可以为社会、政治和科学领域的决策者以及研究人员提供自动化工具，为企业市场营销创造新的前景。图3给出了论辩挖掘的一个应用示例。通过对该评论的分析，我们可以获得发言人对于某一个特定话题的基本看法，方便我们更快获得其中的信息。

论辩质量评估 论辩质量反映了一个单元、一个论点或论证有多好。比如，前提是否可接受、语言上是否清楚、是否与讨论有关、论证是否有说服力、说服是否有效或论辩是否合理等。在某种意义上，关于论辩质量的问题是论辩挖掘的终极问题，这说明了论辩质量评估的重要性。那么为什么要评估论辩的质量呢？第一，在实践中我们对论辩挖掘和对论断的理解还不够充分；第二，对于成功的论辩，我们需要找出“最佳”的论点；第三，论辩质量评估对任何计算论辩的应用都至关重要。常见的应用如：论点搜索，哪个论点排名最高；写作支持，一个论辩文本有多好，是否存在什么缺陷；自动决策，哪些论点比其他论点更重要。

图3 论辩挖掘在评论分析场景下的应用

论辩质量维度的分类有三个主要的方面，分别是逻辑性、修辞性、辩证性。逻辑性，指的是一个有说服力的论点要具有可接受的、相关的和充分的前提。局部可接受性，给出的前提值得被相信是真实的；局部相关性，该前提与结论相关；局部充分性，有这个前提就足以得出结论了。修辞性，指的是有效的论证，能够说服目标受众。包括如下几点：可信度，使作者值得被信任；情感吸引力，让听众愿意被说服；清晰度，语言上清晰，尽可能简单；适当性，语言上与听众和话题匹配；顺序性，以正确的行文顺序呈现内容。辩证性，合理的论证，包括可接受的、相关的和充分的。全局可接受性，值得以陈述的方式加以考虑；全局相关性，有助于解决给出的话题或问题；全局充分性，充分地反驳了潜在的反面意见。

对话式论辩

对话式模型最早起源于对上述经典的单篇式模型的改进版本，相关研究主要通过引入一些新组件来捕捉不同参与者论点文本之间的互动性，这一类本质是单篇式论辩和对话式论辩的结合研究。之后随着研究的不断深入，一些更加针对对话式论辩领域的模型也相继问世，包括交互论点对识别和对话式论辩生成等。

交互论点对抽取 在实际生活中，往往有对话就会有论辩对，因此对话式论辩抽取的适用场景非常广泛，包括但不限于社交媒体论坛、论文同行评议等。所谓交互论点对，是指在对话式论辩的场景中（如辩论赛或在线辩论论坛等），参与的双方就某一共同话题所产生的逻辑或语义上存在相关的论点对。图4给出了论坛中的两条讨论帖的示例，其中帖A为该主题下的原始帖，即“楼主”所发。而帖B为帖A的回复帖。这两篇帖子都旨在讨论联合养老制度的合理性，其中帖A支持联合养老保险制度，共分为五个论点句，并从三个角度阐述了发帖者所认为的合理性。而帖B反对该制度，也分为五个论点句，并通过举例的方式论证了自己的核心观点：“人们退休后的收入需求通常会随着年龄的增长而下降。”通过分析这两篇帖子的文本，可以发现B1与A1之间存在直接的反对关系，因而这是一对互动论点对。相似地，B2和A5也共同成为一对互动论点对。自动化完成交互论点对的抽取，可以帮我们快速地在论点交互中挖掘出讨论双方关心的问题。

图4 论坛交互式论点对抽取样例

对话式论辩生成 对话式论辩另一个分支的研究则偏向于提出自动化模型在对话式领域实现对话生成任务。对话生成任务是人机交互中机器实现输出的一个重要组成部分，如何让机器按照我们预先设定的范式实现有效输出是重中之重。具体的，对话生成任务大致可以分为总结性论点生成和目标论点生成两类。

总结性论点生成：最简单的对话式论辩生成任务之一是根据给定的观点或论点文本集合，生成对应的总结性句子，相当于生成了一个特定的论点句。从别人那里收集意见是我们日常活动的一个组成部分。发现别人的想法可以帮助我们在生活的不同方面导航，从日常任务的决定到判断基本的社会问题和形成个人意识形态。为了有效地吸收大量固执己见的信息，迫切需要自动化系统对一个实体或话题生成简洁流畅的意见总结。

目标论点生成：针对特定的话题生成支持或反对的高质量论点文本，则是更为实际的论点生成任务。针对生成任务的早期工作通常是先从语料库中提取文本，然后按特定顺序输出，缺少综合不同语料内容的能力。产生高质量的论点在决策和推理过程中起着至关重要的作用。许多最终决策都是在争论或反驳中不断推进发展的，而当这种争论来到人机交互场景时，生成高质量论点的重要性就体现出来了。例如：立法机构经常进行辩论，以确保法案获得足够的票数通过；网上审议则是另一个常见的场景，它已经成为征求公众意见的一种流行方式。尽管如此，构建有说服力的论点对人类和计算机来说都是一项艰巨的任务。

论辩应用

计算论辩研究近些年引起越来越多的关注，除了它的学术价值外，也在于它能够给不同领域的应用带来新的发展，包括智慧论辩、智慧教育与司法。

智慧辩论 IBM于2019年公开发布了人工智能辩手“辩论者”（Project Debater）。它是全世界首个能与人类进行复杂辩论的自动化论辩系统。该项目由IBM团队自2012年启动开发，2021年3月登上了《自然》（Nature）杂志封面。 2019年2月11日辩论者与纳塔拉詹（H. Natarajan，世界大学生辩论赛冠军）围绕“是否应当补贴学前教育”展开了一场公开辩论，AI辩手持正方，人类辩手持反方。比赛采用简化后的议会制辩论，含15分钟持题准备时间，三轮交替发言环节。赛前，79%的听众同意学前教育应该得到补贴，13%的人不同意。赛后，62%的人同意，30%的人不同意。最终，人类辩手纳塔拉詹获得胜利。

辩论者系统包含论辩挖掘、论辩知识库、论点反驳和论辩组织四个模块。论辩挖掘模块从大的文本语料库中找寻到议题相关的论点和驳论点。论辩知识库包含论点、驳论点以及其他辩题下的相关文本，一旦给定辩题，系统在其中找到最相关的论辩语料。论点反驳模块将前两个模块中潜在的相反论点与实际对手的陈词做匹配，由此生成可能的回应。最后，论辩组织模块从其他模块提供的文本中选择性地组织出一则连续的发言。

智慧教育 计算论辩的一大应用对象是学生议论文，开始设计如写作助手、议论文自动评分系统等工具。写作助手是一种自动分析论辩性文本（如议论文）的技术，以便向作者提供反馈。典型的过程是用户在系统中输入一个文本草稿，该系统对草稿进行分析，为用户提供综合反馈，用户修改草稿并重复此过程。它的应用场景包括议论文写作的教学、文本说服效果的优化、写作速度的提高等。相关应用程序如下：用于修正拼写和语法检查的内置工具（例如微软的Word里）；专业的写作工具甚至可以分析风格、语气等（例如Grammarly）；增强的写作工具积极地完成文本草稿（例如textio flow）。所有这些都可以与议论文写作支持相结合。增强写作（augmented writing）是一种写作支持的变体，可以半自动地转换或完成用户编写的文本段，或者它可以建议给定句子或类似句子的替代方案。增强型写作还可能包括写作支持的其他典型功能。实现方式是识别并重用以前文本中的类似内容，并根据给定的文本段调整风格和措辞。增强型写作目前还没有得到明确的论证研究，但是潜在的用例是明显的。

议论文写作是学校教育中针对不同年龄和不同学科的学生的一项标准任务，在数字化和在线教育的时代，自动化变得越来越重要，可能有一天写作助手会成为标准文本处理工具的一部分。在议论文的计算任务中，论辩挖掘和质量评估为写作支持奠定了基础，其他评估和标准文本分析也让它更加完善。增强写作可能需要加入论点生成的功能。到目前为止，现有议论文写作系统的重点是放在论辩挖掘上，论辩质量评估和反馈生成功能还相当初级。如果系统出现错误，则它输出的价值可能会有问题，不过这部分只是一个接口问题，即使存在错误的输出，也可能提供有用的反馈。

司法领域 一个非常富有现实意义的辩论场景是法庭上原告与被告双方的对簿公堂。在一次庭审中，原告（控方）提出被告（辩方）的过错并提出相应的要求，而被告则试图回应或反驳原告的观点，并提出自己的要求（举证则视不同案由有不同的规定）；如此来回若干回合，最后由法官当庭或择期给出最终的判决。

目前，法院在分析庭审记录时，仍然需要依靠法官人工阅读、整理、分析、归纳双方陈词，这往往会耗费法官大量的时间、精力与资源。在庭审记录或裁判文书中，其中一个需要法官重点关注的是双方争议的焦点。这些争议焦点通常涉及诉讼案件的核心问题，是控辩双方争取自身权益的关键点，因此往往关系到最终宣判的合法性、公平性与合理性。从计算论辩的角度看，争议焦点实际上就是双方论点中存在冲突或部分冲突的论点对，因此争议焦点识别就可以分解为论点提取与冲突论点对识别两个任务。

论点提取和冲突论点对识别这两个任务目前都有了成规模的数据集与性能良好的模型。其中，论点提取是经典的论辩分析任务之一，相关研究已基本成熟，因此本节我们主要介绍冲突论点对识别——这正是中国法律智能技术评测（CAIL）计算论辩赛道的评测任务。CAIL赛事自2018年起举办，是国内规模较大、水平较高的司法类智能技术评测竞赛。计算论辩赛道自2020年起就一直是CAIL的子赛道之一，可见计算论辩技术在司法领域的确有广阔的应用前景。

展望

从语言和逻辑的角度分析辩论，一直是人们探寻辩论背后人类智慧规律的重要方法。而计算机、机器学习、人工智能等新技术的不断发展，无疑让计算论辩走上了发展的快车道，也让越来越多的计算论辩成果落地成为可能。同时也涌现出许多新的方向与课题，例如论辩信息的图谱表示、群体语境下的自主论辩等，它们都有机会在接下来的数年时间里发展为计算论辩的又一个闪光点。无论如何，在如今这个充满着观点对立与信息茧房的社交媒体时代，人们已然发展出新的辩论形式，而计算论辩在这个时代迸发的无穷潜力，依然等待着人们的努力挖掘。

本文作者魏忠钰是复旦大学大数据学院副教授

必威体育备用地址目录 contents

卷首语

CRISPR想要养活全世界

专稿

CRISPR十年：基因编辑技术初露锋芒

天文学

小行星与飞镖探测器相撞后损失了100万千克质量

物理学

核聚变能源又开始流行起来

医学与健康

心脏病风险新指标