John Snow(不是G.O.T.里那个“私生女”)约莫总有一天不会想到,自己在摸查鼠疫散播有效途径时,在世界地图上记号死于鼠疫病人的“鼠疫世界地图”,竟然会被后世评选为历史上全国十佳统计数据建模的事例,并且成为了生物制药地理学和结核病学中几项基本的科学研究方法。
詹姆斯·塔勒(John Snow,1813年3月15日-1858年6月16日),英国外科医生,曾当过伊丽莎白女皇的商业机构医生,因在1854年戈登路鼠疫暴发该事件科学研究中作出重大重大贡献,被指出是麻醉剂药理学和卫生保健药理学的先驱者。
https://www.results.org.au/john-snow-the-epidemiologist/在塔勒生活的年代,对鼠疫的直接原因的非主流意见建议是酸雨论(指出鼠疫像瘟疫一样透过水蒸气散播)。一方意见建议是未被广泛接受病原体哲学思想。透过深入探讨,在与该地住户的沟通交流中加上威廉·麦卡笛的帮助,塔勒判断出戈登路的公用冷却水是污染物,塔勒随后使用点示图去解释鼠疫事例暴发点是以冷却水为中心。透过相连鼠疫该事件与测绘的关连,编定了著名的 “鼠疫世界地图”。
他将该地区的每一个冷却水,以及四面的水渠都标示到图中。最后他发现最少的鼠疫病人紧紧围绕的冷却水位于戈登路。
新冠禽流感肆虐期间,我们每天查阅的禽流感世界地图,都得非常感谢算命塔勒的重大贡献。
回到责任编辑的主轴,有关统计数据建模,统计数据玩者将按经典之作的Why-What-How方法论为我们逐步进行。
一、为什么要统计数据建模
——Necessity for data visualization
嘿嘿举个红豆,我们可以试著找寻右图中的“7”:
看累了?试一试上面这那哥呢?
是不是容易太多了,这就是视觉的力量。
建模辅助决策
科学研究表明,人眼是一个高带宽大量视觉信号并行GPU,带宽在2.339G/s,相当于一个两万兆网卡,具有超强的模式识别能力,且对可视符号的处理速度比数字或者文本快多个数量级,在大统计数据时代,统计数据建模是人们洞察统计数据内涵、理解统计数据蕴藏价值的有力工具。
因此,建模常常被用来辅助决策,如上图,中间的一张密密麻麻的客户表,到底能得出什么有价值的信息指导决策呢?光看一行行一列列的统计数据,可能需要很久才能得出一些结论,但是经过建模,我们可以轻松的以各种形式的建模快速掌握结论,从而辅助决策。
这就是:可视分析,即将信息提炼为知识,起到“观物至知”对作用,便于决策者从复杂、大量、多维度的统计数据中快速挖掘有效信息。
不当建模误导判断
值得注意的是,并非所有的建模都可以指导决策,甚至不当的建模会误导判断,以致做出错误的决策。
• 2004年前后,美国有线通信协会(NCTA)发布的报告中,用右图声称美国政府的管制行为导致了企业投资下降,而在放开管制后,企业投资就大量增加。
• 乍看之下,管制的时候是左柱,投资只有140亿美元,放开管制后,投资有560亿美元貌似结论没有错误。但这那哥有严重的误导与方法论的纰漏。
• 1996-1999年间三年的统计数据缺失。三年可以发生很多事情,在缺乏统计数据的情况下,强行将1999年后的投资增长归结于去管制,是有方法论欠缺的。
• 左柱只总结了3年的总投资,右柱则总结了4年的总投资,这更是故意误导观众,让观众指出去管制后企业投资大大增加,而游说政府放开行业管制。实际上很可能是其他因素造成的快速增长,而不仅仅是去管制。
真相到底是什么?
可以看到,事实上96年放开管制后,随后的三年里企业投资并没有显著变化,99年以后的暴发式增长肯定是由于别的原因造成,而非单纯的放开管制。
再看一个红豆:
这图看起来,是不是16年比15年增加了特别多,实际看看坐标轴,才从59增加到60,2%不到,把坐标轴换一下:
这样看起来就能体现出2%的增量其实没多少了。不过,根据目的的不同,不排除有的场景也可以采用第一种展现方式。再比如前一段时间好多群都在转的上面这那哥,纵坐标从1100万开始,显得2020年的1200万简直快到底了,是不是没人生孩子了……
我们换成从0开始的纵坐标来看看:
这是不是正常多了,虽然也下降得不少,但是整个基数还是很大的。
不过,如果需要贩卖焦虑,用上面那那哥就比较容易达到效果。
二、什么是统计数据建模——Concept of data Visualization
发展历程
利用人眼的感知能力对统计数据进行交互的可视表达以增强认知的技术称为建模,它将不可见或难以分析的统计数据转化为可感知的图形、符号、颜色、纹理等等,以提高统计数据识别和信息传递的效率。
我们拿到的原始统计数据,可能是半结构化,甚至非结构化的,经过统计数据清洗和ETL过程,我们得到规整的结构化统计数据表,再透过视觉映射,我们得到需要展示的视觉结构,即按照什么维度,展示什么指标,最后,将视觉结构透过图像转换,转化为最终的建模图像,呈现给决策者。
我们可以将统计数据建模的发展历程分为七个历程。
17世纪之前——图表萌芽
人类早在公元前6200年就掌握了观测和绘制的能力,此后也一直透过手工的方式制作可视化作品。建模萌芽出自世界地图和一些简单的图表,统计数据也不是测量而来,目的大多是展示一些重要的信息。
人类第一幅世界地图(公元前6200年)公元950年,欧洲人画出了基于时间变化的折线图,用于展示太阳,月亮等行星的位置变化趋势,开始出现如今的统计数据图表的雏形。
17世纪——物理测量
17世纪以后,随着对物理基本量(时间、距离等)的测量理论和设备的完善,制图学理论也随着分析几何、概率论等学科迅速发展,17世纪末产生了基于真实测量统计数据的建模作品。
人类第一幅天气图(1686年)这幅图是谁画的呢?Edmond Halley(1656-1742),埃德蒙·哈雷,是不是挺耳熟,没错,就是发现哈雷彗星的那个哈雷。
Edmond Halley图上绘制了信风和季风的方向,“一目了然地显示了这些风的所有不同地段和路线;据此,有可能比任何口头描述都更容易理解”。[1].
18世纪——图形符号
进入18世纪,人类不再满足于世界地图上的几何信息,随着统计理论、实验统计数据分析等学科的发展,现在我们所熟悉的函数图、抽象图被广泛发明。
丹麦和挪威的进出口贸易时间序列此图来自威廉·普莱费尔(WilliamPlayfair,1759-1823),他是来自苏格兰的工程师和政治经济学家,今天我们使用的折线图、条形图、饼图和面积图都是他发明的。图中,红线是出口额,黄线是进口额,透过两条折线可以很明显的看出,1754年前,出口额小于进口额,之后出口额反超。
19世纪——统计数据图形
19世纪,统计图、概念图等迅猛暴发,此时人们已经掌握了众多统计统计数据建模工具,包括柱状图、饼图、折线图、时间线、轮廓线等。政府规划和运营也越来越多的采用建模方法,19世纪下半叶,迎来了统计数据建模的黄金时期。这个时期的统计数据建模代表作,除了上文中提到的“鼠疫世界地图”,还有上面这张拿破仑东征流图。
1812-1813对俄战争中法军人力持续损失示意图(1869年,被誉为史上最佳可视化)这那哥的信息量极大,是1969年法国工程师Charles Joseph Minard制作的,描绘了拿破仑1812年率军攻占莫斯科的行军图。
其中,最底层是世界地图,深黄色图形表示行军规模,黑色图形表示撤军规模,线条宽度代表了军队的人数,可以看出从出发时开始的42w大军,行军规模逐渐缩减,撤军规模逐渐增加,到达莫斯科时只剩1w人。当然,线条的走势也是行军/撤军路线。
同时,底部既有横向的时间轴,也有纵向的刻度标识了当时的气温。
此图可以直观的感受到,拿破仑的40万大军是如何在长途跋涉和寒冬中消耗殆尽,此次东征也称为拿破仑由盛转衰的转折点。此外,还有南丁格尔玫瑰图:
南丁格尔玫瑰图没错,就是那位护士弗罗伦斯·南丁格尔(Florence Nightingale),护理学的奠基人。
Florence Nightingale她的另一个身份是统计学家。“南丁格尔玫瑰图”直观展示了卫生条件对死亡人数的影响,因而争取到了更好的医疗条件。
20世纪——多维统计数据
进入20世纪,统计数据建模的黄金时期终结,主要原因是随着数理统计的诞生,追求数理统计的数学基础成为统计数据科学行业的首要目标,而图形和建模作为其辅助,没有得到太多重视,多维统计数据建模是这个时期建模的重要特点。
1904年有关太阳黑子随时间扰动的蝴蝶图验证了太阳黑子的周期性1970s-21世纪——交互建模
随着计算机的发明和应用,人们开始采用计算机编程完成建模过程。70年代以后,随着人机交互界面、图形显示设备的普及,人们获得了将更复杂、更高维统计数据的建模能力。
谷歌人体浏览器自80年代末开始,Windows系统的问世使得人们能够直接与信息交互,也极大的提升了人们对于建模的热情。同时,随着高维统计数据和高性能计算的进一步普及,对于多维、时变、非结构化统计数据呈现和分析的需求也更加强烈,可交互的建模产品开始登上历史舞台。
2004至今——可视分析学
大统计数据公司Palantir为美军分析的亚丁湾海盗概率热点图进入21世纪,人们并不满足现有建模技术对于统计数据的呈现和表示,开始将建模和统计数据挖掘、图形学结合起来,以辅助用户从大尺度、复杂、矛盾甚至不完整的统计数据中快速挖掘出有用的信息,以便有效做出决策,这门学科就称为可视分析学。
非主流呈现形式
软件生成分析图
Excel、Python、Matlab和SAS等统计数据分析软件经常自带统计数据建模包或工具,科研人员或技术人员可借此对数据进行初步建模,以继续深入分析和挖掘,维度相对简单,对视觉要求较低,适合技术人员初步分析或学者发表科学研究论文。右图是针对16年美国大选选民学历的建模分析,未接受高等教育的白人比例越大(相比4年前),Trump的胜算越大,而这个比例在男性中更为明显。
信息图
由设计人员根据清洗过的统计数据,充分分析其含义后,利用illustrator、corel draw等平面设计软件进行手动加工,同时加入注解信息获得。可读性趣味性很强,但相对统计数据准确度不高,常出现于媒体资讯或者公司行业报告中,也就是我们经常看到的“一图看懂XXXX”。
可交互的HTML网页(BI系统)
可借由HTML5、JS等技术动态地、可交互地展示高维统计数据,非技术背景的普通用户也可以对自己感兴趣的统计数据进行选取和下钻。常由多个网页构成商业智能(BI)系统,但近年来也被媒体广泛采用展示热点统计数据。
三、怎么做统计数据建模——How to visualize data
进入“大统计数据时代”后,复杂、异构、大尺度的统计数据中经过分析所得的知识和人类所掌握知识的差异是导致新知识发现的根源,但如此复杂的统计数据也往往会让人感到困惑。利用人的强大视觉识别能力和推理分析智能来表达、分析、检验这些差异正是“大统计数据时代”统计数据建模的新思路。这就要求我们在进行统计数据建模时必须理解统计数据含义、目标明确。
建模流程
,否则:
再漂亮的建模,没有准确的统计数据支撑,也是空中楼阁。不光是建模,基于统计数据的分析,模型,支撑风控、营销和运营,在缺少统计数据质量支撑的前提下几乎都无从谈起。
碍于篇幅,此处不再进行,后续会针对统计数据质量专门撰文。
理解统计数据含义&明确目标
做建模,最容易进入的误区就是,拿到一堆统计数据,还没有理解统计数据有什么含义,直接就开始套用图形进行展示,把大部分时间用在美化图表上,而完全忽略统计数据本身传达的意义。上面这那哥信息量很大,可以帮助我们评估一个建模作品是否成功。比如,把统计数据按照一个故事线组织起来,那多半是一个科学研究文档或者提纲,再加上特定的目标和功能介绍,才可以画出线框图,最后加上视觉形式,才有可能变成一个成功的建模作品。再比如,只有统计数据和视觉形式,那可能只是纯粹的统计数据艺术,看起来很美,其实没有价值,就算加上一个故事,也没有什么特定的用途,给不了任何启发,只有赋予它一个特定的目标,才有可能成为一个成功的建模。所以,明确一个建模作品的目标是很重要的,知道了要传达什么信息,达到什么目标,才知道要选择什么展现形式。不同的图表类型适合表达不同的含义,比如,要比较趋势,折线图就比柱状图更合适,比如,要表达占比,饼图不一定比堆积柱状图好用。
选择合适的展现形式
那么,如何选择合适的展现形式呢,毕竟,有那么多种类的图形:
上面列举了常用的各类图表及适用场景:
建模Check List
过度设计影响信息表达
如右图,其实只需要表现一个度量,但是却用了三维图形,扇面的高度不具有任何含义。
条形图足以表达:
同样,右图想表现的信息过多:
看起来很美,但是看完以后完全不知所云,不如拆成几那哥分别表达。
图表类型不合适
想表现趋势,却用了柱状图:
换成折线图更加直观:
使用过多的色彩
颜色本身也传递了一定的信息量,过多的颜色也给人一头雾水的感觉:
结合我们想要表现的重点,有针对性的突出一到两种颜色即可:
避免信息过载
折线图比较了太多系列,建议不超过三个:
同样,和弦图也有类似的情况:
少用3D效果
3D效果通常不能表现额外的信息,反而会造成不必要的遮挡和误解:
改成2D的图形效果反而更好:
眯眼测试,突出重点
一套复杂的BI看板,常常让观看者无从看起:
透过眯眼测试,可以看出表格中的什么元素更加突出,从而有针对性的找寻重点并突出展示。
甚至可以采用动图的形式,将不需要重点展现的图形模糊化处理,最后突出重点:
结语
建模的核心还是传达信息,如果你自己还没想清楚要传达什么信息,不用操之过急,想清楚以后再选择合适的图表进行展现即可。责任编辑只是针对建模的一般做法和常见图表做了浅析,这里推荐我们一些材料和网站,可以更好的完成建模展现。联合国欧洲经济委员会出品的【让统计数据有意义】,有两部分,第一部分:数字故事写作指南,第二部分:统计统计数据展示指南。
上面两个网站可以帮助你在种类繁多的图表中选择合适的一种。
中文版的我也找到一个:图之典,不仅有图表的优缺点、适用场景,还有不同图表经典之作的建模事例,值得一看:
此外,不少开源社区,以及云服务器的帮助文档,都会针对不同的图表类型进行解释,比如qlik,aws等等。
希望我们都能做出优秀的建模作品。
源:一个统计数据玩者的自我修养