1.3 What问题:图表的视觉机制

图形对象和视觉属性

图表使用各类图形对象表达数值数据。常见的图形对象包括点、线、柱(条)形、面积等。某些非常规图表则使用颜色、角度等表达数据。在大多数可视化软件中,图表类型及其结构变化大多由上述图形对象决定。例如,柱形图和线图的区分主要在于二者分别使用柱形和线条展现数据,其他方面并无差异。

显然,不同的图形对象在展示数据信息方面各有特点。点、线和柱(条)形都是通过坐标轴平面空间内的位置表达数据的,饼图用的是扇区面积,气泡图用的是位置和圆圈大小,热力图则通过颜色区分数值的高低。表1-1对比了这些图表类型(图形对象)在表达数据方面的差异。

表1-1 不同图形对象的数据表达能力

续表

同时,不同的图形对象还拥有不同的视觉属性,这些属性基本上可分为形状和颜色两大类。前者和图形对象的几何特性有关,后者则一般使用不同色系或同色系但饱和度不同的颜色表达。表1-2列出了常见图形对象的部分形状和颜色属性,不同的可视化软件所提供的形状和颜色选项或有差别。

表1-2 主要图形对象的形状和颜色属性

显然,视觉属性由图形对象决定。例如,数据标记、线条颜色主要适用于点图和线图,而不适用于柱形图和条形图。填充图案仅适用于柱形图、条形图及面积类图形对象等。在不同的应用场景中,形状属性和颜色属性可能发挥不同的作用。在黑白印刷这样的颜色显示受限的情况下,会优先使用形状属性。在彩色印刷和多数电子屏幕中,颜色属性则凭借其视觉吸引力更受用户青睐。以常见的柱形图为例,使用横向、纵向条纹等图案填充的柱形图通常多在学术作品中出现,而报刊杂志及电子出版物中大多使用丰富多样的色彩来填充。

图形对象的形状和颜色属性的用处何在?对于仅包含单个数据系列即只有一种图形对象的图表,一个分类轴和一个数值轴(XY散点图有两个数值轴)就足以满足绘图之需。因此,视觉属性在此类图表中的意义不大。例如,对于图1-3中列出的各图表,除非有特别目的需要对不同数据点设置不同格式,否则一般情况下此举均属多余。

图1-3 多余的视觉属性

视觉属性的意义主要体现在多数据系列的图表中。随着数据维度的增加,例如“不同行业板块不同市值区间的平均市盈率分布”“不同行业板块平均市盈率的月度变化”等,这些多维数据包含行业和市值区间、行业和月份等多个维度的分类信息,而二维图表仅能提供一个分类轴,此时可使用形状和颜色等属性对多个数据系列进行区分。在此意义上,本章介绍的可视化基本原则在本质上主要适用于多系列或多维分类数据。对于诸如“某公司各季度营收变化”之类的单一分类数据(按季度分类),在遵循相同设计的前提下,使用何种图形对象或何种图表类型表达,差异并不显著。

此外,抛开对“数据系列”的技术层面的理解,在许多较大的样本数据中,如需对部分特定数据点突出显示,也离不开对视觉属性的合理使用。在此情形下,视觉属性是一种有力的分组、聚类表达,在数据挖掘中也有重要用途。

图1-4反映了28个成员国对欧盟的出口依赖及欧盟移民在本国人口中所占比例。图中左上部分代表对欧盟出口依赖程度较低、欧盟移民占本国人口比例较大的区域。图1-4对部分数据点即惠誉国际评级机构认定的高风险国使用特殊的颜色和形状标记来区分。这些聚集于图表左上区域的国家同时又具备两个共同特点:岛屿国家、英联邦成员国或前成员国。

图1-4 视觉属性在数据分组中的应用示例

由此可见,对视觉属性的合理应用是数据可视化的关键环节,因此还需进一步了解其背后的视觉机制。

视觉机制和前注意过程

在人的各种感觉中,视觉是接受信息的最有效渠道。研究表明,人类70%的感觉神经都与视觉有关。视觉刺激和感知在很大程度上发生于前注意(Preattentive)过程。作为视觉感知的初期阶段,前注意过程产生于意识层之下,能以极高速度捕捉视觉对象的各种信息,如颜色、位置和形状等。与之相比,注意过程则是发生于意识层面的高级认知,例如阅读、理解文字的含义,其效率远远低于前注意过程的效率。

图1-5可用于说明注意过程和前注意过程的区别,请试着在左右两图中找出各有几个数字“6”。答案虽然相同,但二者所涉及的视觉感知机制完全不同。左图中的数字没有呈现出任何能够触发前注意过程的视觉特征,因此需要在意识层面逐项计数,使用的是速度较慢的注意处理系统。相比之下,从右图中几乎可以瞬间得出答案,原因即在于其中的数字“6”使用了能激发前注意过程的视觉特性:仅数字“6”为黑色,其余数字均为浅灰色。两种颜色形成了反差强烈的前景和背景效应,这是由前注意过程高效处理的。

图1-5 注意过程和前注意过程的区别本图参考Stephen Few的著作《秀出数据:如何设计启迪人心的表格和图表》。示例:找出图中有几个“6”

图表展现数据形态,成功的图表能向读者高效地传达数据信息和观点,原因就在于其充分利用了视觉上的前注意处理,这个过程比有意识的认知更加迅速。为了实现高效的传达和沟通,图表设计和制作的关键是要使前注意处理尽可能发挥作用,从而引导读者在短时间内对图表所要表达的信息留下印象。换言之,在某种意义上,制作图表时要用心构思,才可使读者无须费神即可解读。成功的图表能够帮助数据实现自我表达,其前提正在于充分利用视觉感知的基本原理。

当然,采用何种方式展现数据,也要视具体的应用需求而定。文字描述和表格并非一无是处。例如,当需要展现数据精度或提供准确数据供查询时,以及对于数量级别差异悬殊的数据,信息特征不明确、缺乏任何形态或趋势的数据,有时就更适合使用文字或表格来描述,交由注意过程的高级思维消化处理。此外,前注意处理尽管高效却极易耗尽注意力资源,在处理视觉属性上也存在一些重大限制。

理解视觉属性的边界

不幸的是,前注意过程仅在一定限制范围内有效,超出范围会导致其效果迅速恶化,最终不但于事无补,而且会妨碍数据表达。

首先,在图表中使用单一视觉属性存在数量限制。随着数量的增加,视觉效果会显著弱化。有研究表明,二维图表中图形对象的任意视觉属性都不应超过4个,否则会造成类似“内存耗尽”的不良后果。

在图1-6上半部分,左右两图分别使用了8种和4种颜色代表对应数量的数据系列。右图包含Q1~Q4(4个季度)4个系列,想明确看出各季度具体的变化特点相当不易,左图的数据系列数量翻倍,各系列的数据信息就更无法感知了。图1-6下方的图表使用了4种颜色代表4个不同的行业分组,数据信息同样难以快速消化,而且密集的数据点进一步提高了阅读难度。

图1-6 单一视觉属性的数量限制图片来源:高盛证券研究报告。

由此可见,在颜色数量超出前注意过程处理能力的情况下,无论是应用不同颜色,还是使用强弱不同的同一个颜色,视觉效果都无法得到改善。另外,在图表中对同一个图形对象使用多种视觉属性的情况下(同时使用形状和颜色),前注意过程几乎更是无法发挥作用。当各系列数据缺乏显著差异时,图表甚至会立即陷入视觉陷阱,丧失最基本的可读性。图1-7和图1-8都不恰当地同时使用了形状和颜色两种属性,导致图表难以阅读。

图1-7 不恰当地使用多重视觉属性(1)

图1-8 不恰当地使用多重视觉属性(2)

可视化的本质

一个反映时间序列的折线图,如果缺乏明显趋势或信号特征不明确,则随着数据系列数量的增加,线条的上下交错将导致其视觉效果不断恶化。图1-8就是一种极端情况,此类图表在各类研究报告中并不少见。

同样,一个清晰美观的单系列柱形图或条形图,无论数据信息有何特征,只要增加数据点和数据系列,其视觉效果就将急转直下。原因在于随着数据点的增加,柱形或条形的紧密堆簇会妨碍读者对不同数据的识别和对比。随着数据系列数量的增加,这个缺陷将变得更加明显。因为每增加一个数据系列,就意味着图表需要多使用一种色彩并产生大面积的颜色区域,而且颜色面积的增加和数据点的增加不成比例。

图1-9是一个单系列条形图,由于仅含一个数据系列,且绘图数据事先经排序处理,所以图中数据信息清晰简洁,反映了2017年A股部分行业上市公司境外收入占比。

图1-9 单系列条形图示例

图1-10是包含三个系列的条形图,对比其与图1-9的视觉效果可发现,随着数据系列的增加,不同系列之间的干扰变得严重,解读图中数据系列的信息明显变得困难。图1-11则进一步表明,在分类和维度更多的数据中,柱(条)形图的视觉效果会进一步变差。

图1-10 多系列条形图示例

图1-11对比了1995年与2012年亚洲部分经济体对中国和对日本的出口在其出口总额中所占份额的变化情况。由于绘图数据包含经济体、出口目的地和年份等多个维度,因此图1-11将其处理为两个并列的条形图,分别与两个年份对应。红蓝交错的条形导致读者在前注意过程中无法快速获得有价值的信息。本书将在第4章进一步阐述此图并提出可行的替代方案。

图1-11 多维度条形图实例

由此可见,如何在数据分类及系列数量不断增加的情况下,确保图表仍可被前注意过程高效处理,以保持图表的视觉质量不被破坏、清晰传达数据的形态信息,是数据可视化在图表层面的核心要义。理解视觉属性的边界和可视化的本质,一方面能避免在图表表达中滥用读者的注意力资源,另一方面也会促使制图者更注重数据本身的意义,探索和提炼更有价值的信息。