以前他们看到两个做得太烂的图象,或者貌似的统计数据建模经典作品时,往往是将它们取笑几番也即使了。但有些这时候,他们好像梅西县辨别两个建模经典作品是纯粹的差劲乙醛,却是所致仇恨而蓄意制造的不实重要信息。
当然,用统计数据来撒谎早已不是什么目须了,但那时图象越来越容易被广为流传,网路上四处都是,而其中好些传达的是波镇。你可能将只是就行了瞟了一看,但两个简单的重要信息也可能将在脑海中幼苗幼苗。在你还不知道的这时候,小李子早已在椅子上转起了球型,而没法重视它会停下却是会一直转下去。
顺理成章地,那时他们需要加速看破两个图象是否在说谎,而这篇Grignols就是你周到的辅导指南哟。
阻断极线
右边的y轴统计数据从10早已开始,纯粹的圆谎。右边的统计数据从0早已开始,较好。
宽度是图表听觉呈现出的关键性,所以当某些人透过阻断极线而蓄意把宽度延长时,整个图象的差异就显得更明显了。这些人想展示出比实际情况更间歇性的变化。我在另一则该文里详尽谈了那个问题。
多重极线
它用了三种差异很大的比例,可能将是为了私自扯上两者之间。
透过使用多重极线,统计数据的数量级可以根据三种测度来增大或收缩。人们通常用它来抒发关联度和两者之间。“因为那个夏斯利,另两个事发生了,看,很清楚吧。”
Tyler Vigen做的假相关统计数据的项目是个极佳的范例。
总和不对头
饼图中所有部分的比例加起来超过了100%。
一些图象专门要展示总体中的某些部分,而当这些部分加起来超过了总和,问题就很大了。比如,饼图代表的是总共100%,而如果每个扇形的比例加起来超过了100%?怪怪的噢。
可以看看那个搞笑的范例。
只看绝对值
这其实只是人口分布图。当你对比不同地方、种类或群体时,你必须考虑相对值,公平比较
任何事物都是相对的。你不能因为某个城镇发生了两起抢劫案,另两个只发生了一起,就说第两个镇更危险。万一第两个镇的人口是第二个的一千倍呢?更有效的方式往往是对比百分数和比例,而非绝对值和总值。
这幅xkcd的漫画很直白地展现了人口绝对数的影响。
有限范围
左图看上去增幅很大,但右图显示出这只是常态,且选定时间内的增幅实际并不明显。
人们倾向于精心挑选日期和时间段来配合特定的叙事,所以更应该考虑到历史背景、时常发生的事件,以及合理的用来比较的基准。
当你研究全局时,可能将会发现有趣的事情。
奇怪的分级
左图只有两个分级,大于1的究竟包括些什么?可能将在打掩护。右图更好,展示了更多变量。
有些建模经典作品会过分简化两个复杂的模型,而非展示出原统计数据中完整的变量范围。这样做很容易会把两个连续的变量转化为从属于某一类别的变量。
广泛的分级在某些情况下很有用,但复杂性往往才是事物的意义所在。要防止过分简化。
混乱的面积比
30是10的三倍,但或许是为了增加显著性,图上最大的矩形比最小的大得可不止三倍。
如果按照面积来进行听觉上的编码,图形的大小比例就该是面积的比例。有些人却在做面积编码的建模时,改变边长的比例来突出大小对比,完全是为了抓马啊。
有时这种错误是无意间造成的,更需要警觉。
操控面积维度
上下两个图形的面积相等,但看上去很不一样。
或许有人懂得怎么用面积来做听觉编码,却还(gu)是(yi)做出了上图这样的东西。我还没见过如此夸张的范例,但以后说不定就会有。我打赌连象形图都能出现,等着瞧吧。
为了三维而三维
当你看到两个明明没必要还私自用三维的图象,请质疑它的统计数据、图象、作者及图象衍生出的任何事物。
划重点:
如果两个建模经典作品出现了以上任何问题,并不代表它一定在说谎。正如Darrell Huff在《如何用统计数据说谎》里说的:
“本书的标题和里面一些内容可能将像是在说,所有类似的经典作品都是为欺骗而生的乙醛。美国统计协会两个分会的主席曾经因为那个批评我,他觉得与其说所致欺骗,倒更像是能力不足。”
当然,这并不等于就可以原谅,毕竟也做错了嘛。但记住这点,你在骂某某某是骗子之前就可以再考虑考虑。
我的经验是,仔细检查那些令人震惊的、比想象中更具戏剧性的图象。
图象并不能让不实的重要信息变成真的,统计数据也不能。它们会屈从于做图的人,也展示出重要信息本身之外更多的东西。那么,睁大你的眼睛咯。
来自:Flowingdata;By:Nathan Yau;新浪新媒体实验室 独家编译;链接:http://news.sina.com.cn/2017-02-15/doc-ifyarmcu6008746.shtml;