统计数据建模毫无疑问是现今最火爆的词,无论是做甚么统计数据,或许都要用做做呵呵建模才行,但许多人都对统计数据建模没有一个具体内容的基本概念,也不晓得该怎样同时实现建模。因此,话不多说,上面就带我们循序渐进地自学统计数据建模的表述、基本概念、同时实现操作过程和形式。
一、甚么是统计数据建模
社会科学建模、 重要信息建模和IntelliTone预测学四个学科专业路径一般来说被看作建模的四个主要组成部分。而将这四个组成部分资源整合在一同逐步形成的新学科专业 “统计数据建模”,这是建模科学研究领域的打下基础。
狭义的统计数据建模牵涉重要科技、自然社会科学、统计预测、绘图学、可视化、地理重要信息等多种不同学科专业。
1、社会科学建模
、药理学或生物化学各方面的各式各样控制系统,重点项目是对体、面和单色光之类的精巧图形,目地是以绘图形式表明社会科学统计数据,使社会生物学家能从统计数据中介绍、表明和搜集规律性。
2、重要信息建模
重要信息建模是科学研究抽象化统计数据的互动式听觉则表示以加强人类文明知觉。 抽象化统计数据主要包括位数和非位数统计数据,如地理重要信息与文档。图表、趋势图、时序、抽象化图等,都归属于重要信息建模,这些绘图的结构设计都将抽象化的基本概念转化成正式成为建模重要信息。
3、IntelliTone预测学
IntelliTone预测重寄生随著社会科学IntelliTone化和重要信息建模发展而逐步形成的新应用领域,重点项目是透过互动式听觉介面进行预测逻辑推理。
二、为甚么需要统计数据建模
可视化可以帮助我们处理更加复杂的重要信息并增强记忆。
大多数人对统计统计数据介绍甚少,基本统计形式(平均值、中位数、范围等)并不符合人类文明的知觉天性。 最著名的一个例子是 Anscombe 的四重奏,根据统计形式看统计数据很难看出规律性,但一建模出来,规律性就非常清楚。
三、怎样同时实现统计数据建模
在技术上,统计数据建模最简单的理解,就是统计数据空间到绘图空间的映射。
一个经典的建模同时实现流程,是先对统计数据进行加工过滤,转变成听觉可表达的形式(Visual Form),然后再图逐步形成用户可见的视图(View)。
建模技术栈
具备专业素养的统计数据建模工程师一般来说需要掌握以下技术栈:
基础数学:三角函数、线性代数、几何算法
绘图相关:canvas、svg、webgl、计算绘图学、图论
工程算法:基础算法、统计算法、常用的布局算法
统计数据预测:统计数据清洗、统计学、统计数据建模
结构设计美学:结构设计原则、美学评判、颜色、可视化、知觉
建模基础:建模编码、IntelliTone分析、绘图可视化
建模解决方案:图表的正确使用、常见的业务的建模场景
四、常用的统计数据建模工具
学术界用得比较多的是R语言、ggplot2、Python建模库等,普通用户喜闻乐见的是 Excel,商业上的产品是Tableau、DOMO、 FineBI之类,是个精彩纷呈的世界。
1、D3
D3.js 是一个基于统计数据操作文档的 JavaScript 库。 D3 可以将强大的建模组件和统计数据驱动的 DOM 操作形式完美结合。
评价:强大的 SVG 操作能力,可以非常容易的将统计数据映射为 SVG 属性,还集成了大量统计数据处理、布局算法和计算绘图的工具形式,有着强大的社区和丰富的 demo,但是API 太底层,复用性低,自学与使用成本高。
2、HighCharts
HighCharts 是一个用纯 JavaScript 编写的图表库, 能简单便捷的在 Web 应用上添加可视化性图表。这是在 Web 上使用最广泛的图表,企业使用需要购买商业授权。
评价:使用门槛极低,兼容性好,且使用广泛,非常成熟,但是样式比较陈旧、图表难以扩展,商业上使用需要购买版权。
3、ECharts
企业级图表,开源来自百度统计数据建模团队,是一个纯 Javascript 的图表库,可以流畅的运行在 PC 和移动设备上,兼容当前绝大部分浏览器。
评价:丰富的图表类型,覆盖主流常规的统计图表,而且配置项驱动,三级个性化图表样式管理,但是灵活性上不如 Vega 等基于绘图语法的类库,一些复杂关系型图表比较难定制。
4、Leaflet
Leaflet 是面向移动设备的互动式地图的 JavaScript 库。 测量的 JS 只有大约 38 KB,它具有大多数开发人员需要的所有映射功能。
评价:专门针对地图应用,mobile 兼容性良好,API 简洁、支持插件机制,但是功能比较简单,需要具备二次开发能力。
5、Vega
Vega 是一套可视化绘图语法,表述了数据到绘图的映射规则、常见的可视化语法和常见的绘图元素,用户可以自由使用 Vega 语法进行组合构建出各式各样各样的图表。
评价:完全基于 JSON 语法,提供从统计数据到绘图的映射规则,支持常见的可视化语法,但是其本身有着复杂的语法结构设计,使用和自学成本很高
6、deck.gl
deck.gl 是 Uber 建模团队基于 WebGL 开发的面向大统计数据预测的建模类库。
评价:主要以 3D 地图建模为主,内置了地理重要信息建模常见的场景,支持大规模统计数据的建模,但是需要具备 WebGL 的知识,层的扩展比较复杂
7、FineReport
FineReport报表软件是一款纯Java编写的、集统计数据展示(报表)和统计数据录入(表单)功能于一身的企业级web报表工具,仅需简单的拖拽操作便可以结构设计复杂的中国式报表,搭建统计数据决策预测控制系统。
评价:可以直连统计数据库,方便快捷的定制各式各样复杂表样,用来做出固定格式的周报、月报等。它的格式类似于excel介面,特色功能报表制作,报表权限分配,报表管理还有填报,支持多种不同统计数据库。
8、Tableau
Tableau是桌面控制系统中最简单的商业智能工具软件,没有强迫用户编写自表述代码,新的控制台也可完全自表述配置。在控制台上,不仅能监测重要信息,而且还提供完整的预测能力。
评价:全球知名的BI工具,价格6000元/年/人左右,但是国外产品不花钱不会为你做任何定制化改动,售后很有问题。
9、FineBI
FineBI是商业智能BI工具,与Tableau类似,都主张建模的探索性预测,有点像强化版的统计数据透视表。上手简单,建模库丰富。可以充当统计数据报表的门户,也可以充当各业务预测的平台。
评价:FineBI做到了自助式预测,图表类型丰富,统计数据预测功能较强大,钻取,筛选,分组等功能都有。
10、Power BI
Power BI 是一套商业预测工具,用于在组织中提供见解。可连接数百个统计数据源、简化统计数据准备并提供即席预测。生成美观的报表并进行发布,供组织在 Web 和移动设备上使用。
总结
统计数据建模是个庞大的应用领域,牵涉的学科专业非常多,但正是因为这种跨学科专业性,让建模应用领域充满活力与机遇。