极少有人能看着一组原始数据就瞧出规律所在。人类是视觉生物,数据必须要经过解释才能够被人类理解。如何更好解释数据是谷歌公司用户体验资深设计组长曼纽尔 • 利马(Manuel Lima)的专长。在联合国可持续发展目标的“谷歌创业加速器”第一堂课上,利马担任了“产品、用户体验与数据可视化”课程导师。利马拥有设计方面的教育背景,但为了确定如何才能最好赋予设计信息,他深入钻研了认知科学和人类行为学。他过去在visualcomplexity.com上开发了一套容易理解的数据库,探索不同项目的主题,获取优秀可视化方案的构造块。他也是一位狂热的历史爱好者,著有三本著作,致力于探究视觉主题(如“圆圈”),如何追溯到人类理解万物的肇始。他在本文讨论了科学和数据可视化如何携手催生出新的见解和发现,实现对社会的新影响。他与《美国科学家》(American Scientist)杂志主编费内拉 • 桑德斯(Fenella Saunders)对谈,讲述他对于复杂性、模式与设计的观点。
“数据可视化”是近期的时髦术语,然而可视化与数据之间的关联已经存在数世纪之久。为何这个概念在近期变得炙手可热?
我对历史数据可视化的兴趣源自于我对万物起源的执迷。第一个创造图表的人是谁?第一个创造设计图的人是谁?现今的我们担忧着诸多问题,那么,第一个担忧那些问题的人是谁?
大多数关于数据可视化的书都从18世纪讲起,并称之为信息图的“黄金时代”。那时候,诸如威廉 • 普莱费尔(William Playfair)、约瑟夫 • 普利斯特里(Joseph Priestley)和该领域的一批关键人物创造出最初的信息图。但对我而言,那种说法有点肤浅,从一个方面来说,你要是告诉我,在18世纪之前什么信息图都不存在,我会提出不同看法。
在我最新出版的著作《圆圈之书》(The Book of Circles: Visualizing Spheres of Knowledge)中,我尝试尽我所能追溯图视的历史。我追溯到大约四万年前,包括最早期的岩刻以及早期人类创造的一些视觉隐喻和符号。
接下来,就是中世纪中期(公元1000至1250年),我认为它其实是现今信息设计的起源,当时的欧洲人感觉与现今的我们非常相似。源于古罗马和古希腊的新知识朝着他们扑面而来,他们必须要理解那些知识。他们试验了许多不同的视觉隐喻。一批创作上非常多产的人士做了冒险的工作。有些人想要彻底取代文字。“除掉文字,从今往后我们只需要图像。”他们就是这么激进极端。
但接着是“黄金时代”,我称之为“第二时期”,而如今是“摩登时代”,时髦术语诞生于此。我们重新对数据可视化产生兴趣,背后有多个因素。首先是数据储存量的增长。我们产生数据的能力已经远远超过我们理解数据的能力。单单这条因素就引起数据可视化和人工智能之类工具的创新,从而帮助我们理解数目庞大的数据。其次是大范围的工具民主化因素。我们如今拥有数十种工具,使得任何人都能很容易在这个领域工作。还有数据民主化和开放数据的因素。数据变成了一种商品,任何人都能使用数据。
为何数据可视化变成时髦术语?以上是一些起作用的因素。但同样重要的是展示脉络,提供历史背景。这并非全新的情况,人类做数据可视化的工作已经有数世纪之久。
我们为何需要数据可视化?
可视化最重要的是让不可见的东西变得可见的能力,这点甚至比文本或数字更具威力。无论你用文字描述某样东西多么栩栩如生,要更好理解它,没有什么像看见一张图片或图示那样明晰。早在人类拥有任何手写字母表(已知的最古老字母表大约出现在6 000年前)之前,人类就在使用视觉传达的手段。我们天生拥有视觉传达的能力和需求,我们应当利用这一点。我将数据可视化视为另一种解释的手段,能让观点更为清晰,产生一些可见并容易理解的内容。
数据可视化背后有什么伦理关切吗?
你时而会遇上我称为“数据纯粹主义者”的人士,他们说你在摧毁数据,他们认为你应当让数据来说话,而不该以视觉方式来传达数据的含义,因为你那样会制造数据偏差。
即使只是因为原始数据对人类毫无意义,那些话对我来说也属于胡言乱语。你不可能单单通过数据就获知任何有意义的信息。数据转换的一个方面总是需要我们人类来解释和理解它。作为这种转换的一部分,偏见也有可能会渗透其中,就像所有东西一样。
抓取数据和进行可视化分为三个阶段。首先要收集数据:进行选择和挑选出特定的数据集就是一类偏差。因为你做出了选择,你本可以选择另一个数据集。
数据分析是整个过程的重要环节,在这个过程中,偏差会悄悄渗入。你可以轻易去除你不感兴趣或者与你的假设无关的数据的特征项,你也能添加其他特征项。在外界看不到的地方,你能对数据进行许多有趣的操作。
最后一个阶段是“视觉编码”。在“死亡原因示意图”中,有些形状、颜色和尺寸都能改变的构造块,还有图形的语法和如何有效连接构造块的规则。重要的一点是,可视化图的设计者理解基本设计准则,尤其是那些源自于认知科学的准则。
对于可视化实践的未来而言,在数据可视化的过程中留意到道德伦理问题是至关重要的。要保持透明性,将你使用的数据保持开放。公开与数据的联系、解释数据处理的方式、解释数据转化的步骤,这些都是很好的手段。但我认为,我们大家要永远保持审慎态度。譬如说,在新型冠状病毒暴发的早期,社交平台推特上有许多言论说:韩国成了疫情的重点地区。但在那时候,韩国每天检测1万人,相比之下当时美国每天也许仅仅检测20人。收集数据的方式显著改变了我们理解示意图的方式。数据可获得性是影响可视化过程最终成果的一个方面。
弗洛伦斯•南丁格尔(Florence Nightengale)在1858年绘制了这张示意图,向 英国政府展示在克里米亚战争期间,因病去世的人员比战死的人员多多少。 示意图的右侧也显示出,战争第一年的死亡率更高,之后治疗士兵的手段改 进,降低了部队人员的患病率
创造漂亮的示意图时,复杂性与清晰性之间的界限在哪儿?
有一种误解认为美观在设计的光谱上是远离清晰性的,这种观点并不正确。
有一项名叫“美学易用性效应”的准则。基本上,它是说在人类的感知中,美丽的物品比起不美丽的物品来说更容易使用,尽管事实并非如此。比起不美丽的产品,人们对待美丽的产品更加宽容。所以,美学在易用性上扮演关键的角色。
当缺乏清晰性的情况存在时,我不认为那一定是美学或美丽的过错。我们不能彻底避开复杂性。但是,存在着解决复杂性的不同手段与技术。譬如说,一个能追溯到中世纪中期的方法是分块(chunking)。它正是今天信用卡上有4个数字一组的4组数字的原因所在。这样分块的数字比一串16位的数字更容易记忆。那是一种将复杂性降到最低的手段。
另一种互动设计的方法是渐进式呈现(progressive disclosure)。举例说,你在将一个网络做可视化处理。你没有一次介绍整个系统,而是向用户一次介绍一部分,你慢慢、逐渐呈现越来越多的信息。最好的例子就是电子地图。当你缩小地图时,你能看见整个世界。缩小到某个程度,国家之间看不见边界,只能看见一块块大陆。而当你放大地图,你看见一个个国家,接着你开始看见高速公路。逐渐呈现越来越多信息,不会一次呈现全部信息,因为那样毫无意义。设计者能采取一些手段将复杂性降到最低。
妨碍更多艺术家和科学家相互联结的障碍是什么?
设计被归类为艺术学科,但那是传统想法。我的意见是:消除差异的一个方法是让设计成为工科学校的课程。一些学校已经那么做但不是太多。然后,设计师与工程师会开始更有效的合作。在大多数情况下,当他们一起做实际项目时,才会实现合作。
有带来改变的可视化范例吗?
一个例子是弗洛伦斯 • 南丁格尔(1820—1910)。她绘制的这份漂亮示意图,以视觉信息呈现克里米亚战争期间的军人死亡情况。她惊异于有多少士兵不一定死于战事造成的创伤,而是死于战地医院糟糕的卫生情况。她制作了那张图,发给英国政府,使得政策出现重大变化。政府开始改善医院的卫生状况,这使得南丁格尔成为现代护理的先驱人物。她的贡献令人瞩目。
《物种起源》的初版书中有一张示意图。达尔文寄给出版商的信件说,将这张示意图放进书中很重要。这张示意图对他的理论很重要,能解释其关于进化的思想是如何运作的。这张示意图被称为“生命之树”,它非常强大。对进化论的许多理解来自这张示意图。
在更现代的例子中,你大概已经见过宣称“这是互联网之图”的图片,我总是审慎对待它。它其实夸张了,它只是互联网的一张地图。你可以制作出与之相当的无数其他的示意图。但要点是找到正确角度,从正确视角去可视化和理解某样东西,这样才能使其成为强大的工具。
1991年,本•施耐德曼(Ben Shneiderman)制作了这张矩形树图,展示电 脑硬盘的分层嵌套文件夹结构。为了创造尽可能紧凑的可视化方案,他想出 了一条策略,在浏览硬盘的不同分层时,将屏幕分成水平方向和垂直方向交 替的各种矩形。他的递归排列算法变革了树状结构的现代可视化方案
你认为可视化具有艺术价值和科学价值吗?
现在,艺术和科学之间存在“相互影响”现象,尤其是在数据科学、数据可视化和数据艺术领域。现今的艺术家(甚至是那些来自绘画和雕塑等传统领域的艺术家)总是受到世界上其他事物的影响。甚至有时候是他们最早留意到模式,数据集只是他们把玩的新材料。
过去,当图像并不总是有效时,我更具批判性。我想,我们需要拥有探索的空间。我们使用和再利用旧的一套视觉隐喻已经太久。我们面对着截然不同的挑战,需要探索新的可视化方法,因为只有这样,我们才能跟上可视化新模型的潮流。我们需要做实验,而有实验就会有失败,失败是实验的一部分,我们会有多次的失败。但我们需要为创新投资提供空间。
资料来源 American Scientist