【http://51CTO.com快译】统计数据预测(Data mining)是透过智能化的方式,从统计数据中抽取叶诺塔,对统计数据予以解释,辨认出统计数据的模式与关系,和预测态势和行为的操作过程。该操作过程往往会牵涉到譬如:统计数据清扫、机器学习、人工智慧、统计数据预测、统计关系资料库、和重回、控制点等信息统计控制技术。显然,统计数据集越大、越复杂,他们就能够越随心所欲地透过智能化化预测辅助工具,很慢地找到越相关的象征意义。而透过辨识和理解有象征意义的统计数据,用户企业也就能做出各式各样合情合理的决策,并实现其最终目标。
统计数据预测的基本关键步骤
他们能将统计数据预测运用到譬如:市场行业龙头、态势预测、诈欺检测、统计资料库网络营销、市场风险管理、教育、和财务管理预测等多种情景中。虽然各个组织采用的方式可能略有不同,但是Pudukkottai,统计数据预测操作过程通常主要包括以下四个关键步骤:
依照原先的最终目标,确认业务需求。辨识统计管理工具,以确认需要预测什么样统计数据点。选择并应用可视化控制技术。评估结果模型,以确保其符合原先的最终目标。报告数据发掘的结果,或拒绝执行可多次重复的统计数据预测操作过程。统计数据预测与统计基础架构间的差别
在统计数据预测以后,其优势主要包括:改进源控制系统中的统计数据质量,保护统计数据免遭源控制系统更新的影响,具备应用软件控制系统数个统计管理工具和统计数据优化的能力。
统计数据预测辅助工具
与此相反,统计数据预测的操作过程会牵涉到各式各样控制技术,当中主要包括盛行的:重回预测(预测性)、关连规则辨认出(形式化)、控制点(形式化)和展开分类(全面性)。目前,随着市场的成熟、应用软件的升级、和控制技术的插值,他们能换用带有不同演算法的辅助工具,来展开统计数据预测与发掘。下面,我将和您从如下7个展开分类,综合如是说与比较21种常用的辅助工具。
用作统计预测的应用软件控制系统类统计数据预测辅助工具开放源码的统计数据预测计划大统计数据类统计数据预测辅助工具小型统计数据预测计划用作用户端统计数据预测的计划采用数学模型的统计数据预测辅助工具用作统计数据可视化的统计数据预测辅助工具当然,其中的一些辅助工具可能会横贯数个类型。例如,尽管Amazon EMR属于用户端解决计划,但它同时也是处理大统计数据的极佳辅助工具。因此,他们尽可能依照五种辅助工具的最突出特性,展开展开分类。
在实际如是说各类辅助工具以后,他们首先来简要了解两种最盛行的统计数据自然科学C语言:R和Python间的差别。
R与Python
从根源上说,R是在考虑统计预测的前提下开发的;而Python则提供了一种更为通用的统计数据自然科学方式。从采用目的来看,R更著眼于统计数据预测,并提供可灵活地采用的代码库。相反,Python的主要最终目标是部署到生产环境,它允许用户从头开始创可视化型。就具体采用方式而言,R通常被应用软件控制系统到本地运行,而Python则能够与应用程序相应用软件控制系统。因此,尽管它们间存在着差异,但是两种语言都能处理大量的统计数据,并提供大量的代码库。
用作统计预测的应用软件控制系统类统计数据预测辅助工具
1. IBM SPSS
SPSS(Statistical Package for the Social Sciences)是目前最盛行的统计应用软件平台之一。自2015年开始提供统计产品和服务计划以来,该应用软件的各式各样高级功被广泛地运用作学习演算法、统计预测(主要包括形式化重回、控制点等)、文本预测、和与大统计数据应用软件控制系统等情景中。同时,SPPS允许用户透过各式各样专业性的扩展,运用Python和R来改进其SPSS语法。
IBM的SPSS
2. R
与此相反,R是一种C语言,可用作统计计算与图形环境。它能够与UNIX、FreeBSD、Linux、macOS和Windows操作控制系统相兼容。R能被运用在譬如:时间序列预测、控制点、和线性与非线性可视化等各式各样统计预测情景中。同时,作为一种免费的统计计算环境,它还能够提供连贯的控制系统,各式各样出色的统计数据预测包,可用作统计数据预测的图形化辅助工具,和大量的中间件辅助工具。此外,它也是SAS和IBM SPSS等统计应用软件的开放源码解决计划。
3. SAS
SAS(Statistical Analysis System)是统计数据与文本发掘(tex mining)及优化的合适选择。它能够依照组织的需求和最终目标,提供了多种预测控制技术和方式功能。目前,它能够提供形式化可视化(有助于对客户展开展开分类和描述)、全面性建模(便于预测未知结果)和解析性可视化(用作解析,过滤和转换譬如电子邮件、注释字段、书籍等非结构化统计数据)。此外,其分布式内存处理架构,还具有高度的可扩展性。
4. Oracle Data Mining
Oracle Data Mining(ODB)是Oracle Advanced Analytics的一部分。该统计数据预测辅助工具提供了出色的统计数据预测演算法,可用作展开分类、重回、控制点、关连、属性重要性判断、和其他专业分析。此外,ODB也能采用SQL、PL/SQL、R和Java等接口,来检索有价值的统计数据见解,并予以准确的预测。
开放源码的统计数据预测辅助工具
5.KNIME
于2006年首发的开放源码应用软件KNIME(Konstanz Information Miner),如今已被广泛地应用在银行、生命自然科学、出版和咨询等行业的统计数据自然科学和机器学习领域。同时,它提供本地和用户端连接器,以实现不同环境间统计数据的迁移。虽然它是用Java实现的,但是KNIME提供了各式各样节点,以方便用户在Ruby、Python和R中运行它。
KNIME
6. RapidMiner
作为一种开放源码的统计数据预测辅助工具,RapidMiner可与R和Python无缝地应用软件控制系统。它透过提供丰富的产品,来创建新的统计数据预测操作过程,并提供各式各样高级预测。同时,RapidMiner是由Java编写,能与WEKA和R-tool相应用软件控制系统,是目前好用的预测预测控制系统之一。它能够提供譬如:远程预测处理,创建和验证预测模型,多种统计数据管理方式,内置模板,可多次重复的工作流程,统计数据过滤,和合并与联接等多项实用功能。
7.Orange
Orange是基于Python的开放源码式统计数据预测应用软件。当然,除了提供基本的统计数据预测功能,Orange也支持可用作统计数据可视化、重回、控制点、预处理等领域的机器学习演算法。同时,Orange还提供了可视化的编程环境,和方便用户拖放组件与链接的能力。
大统计数据类统计数据预测辅助工具
从概念上说,大统计数据既可以是结构化的,也能是非结构化、或半结构化的。它通常涵盖了四个V的特性,即:体量(volume,可能达到TB或PB级)、多样性(variety)、速度(velocity)、准确性(veracity)和价值(value)。鉴于其复杂性,他们对于海量统计数据的存储,模式的辨认出,和态势的预测等,都很难在一台计算机上处理与实现,因此需要用到分布式的统计数据预测辅助工具。
8. Apache Spark
Apache Spark凭借着其处理大统计数据的易用性与高性能,而倍受欢迎。它具有针对Java、Python(PySpark)、R(SparkR)、SQL、Scala等多种接口,能够提供80数个高级运算符,以方便用户更快地编写出代码。另外,Apache Spark也提供了针对SQL and DataFrames、Spark Streaming、GrpahX和MLlib的代码库,以实现快速的统计数据处理和统计数据流平台。
在Apache Spark中采用Python的逻辑重回展开预测
9. Hadoop MapReduce
Hadoop是处理大量统计数据和各式各样计算问题的开放源码辅助工具集合。虽然是用Java编写而成,但是任何C语言都能与Hadoop Streaming协同采用。当中MapReduce是Hadoop的实现和编程模型。它允许用户“映射(map)”和“简化(reduce)”各式各样常用的功能,并且能横贯庞大的统计数据集,执行大型联接(join)操作。此外,Hadoop也提供了譬如:用户活动预测、非结构化统计数据处理、日志预测、和文本发掘等应用。目前,它已成为一种针对大统计数据执行复杂统计数据预测的广泛适用计划。
10.Qlik
Qlik是一个能够运用可扩展、且灵活的方式,去处理统计数据预测和发掘的平台。它具有易用的拖放界面,并能够即时响应用户的修改和交互。为了支持数个统计管理工具,Qlik透过各式各样连接器、扩展、内置应用、和API集,实现与各式各样外部应用格式的无缝应用软件控制系统。同时,它也是集中式共享预测的极佳辅助工具。
小型统计数据预测计划
11. Scikit-learn
作为一款可用作Python机器学习的免费应用软件辅助工具,Scikit-learn能够提供出色的统计数据预测和发掘功能。它具有譬如展开分类、重回、控制点、预处理、模型选择、和降维等多种功能。
Scikitlern中的分层控制点
12.Rattle(R)
由R语言开发的Rattle,能够与macOS、Windows和Linux等操作控制系统相兼容。它主要被美国和澳大利亚的用户用作企业商业与学术目的。R的计算能力能够为用户提供譬如:控制点、统计数据可视化、可视化、和其他统计预测类功能。
13.Pandas(Python)
Pandas也是利用Python展开统计数据预测的“一把好手”。由它提供的代码库既能被用来展开统计数据预测,又能管理最终目标控制系统的统计数据结构。
14.H3O
作为一种开放源码的统计数据预测应用软件,H3O能被用来预测存储在用户端架构里的统计数据。虽然是由R语言编写,但是该辅助工具不但能与Python兼容,而且能用作构建各式各样模型。此外,得益于Java的语言支持,H3O能够被快速、随心所欲地部署到生产环境中。
用作用户端统计数据预测的计划
透过实施用户端统计数据预测控制技术,用户能从虚拟的应用软件控制系统统计基础架构中,检索到重要的信息,进而降低存储和基础架构的成本。
15.Amazon EMR
作为处理大统计数据的用户端解决计划,Amazon EMR不仅能被用作统计数据预测,还能执行譬如:Web索引、日志文件预测、财务管理预测、机器学习等统计数据自然科学工作。该平台提供了主要包括Apache Spark和Apache Flink在内的各式各样开放源码计划,并且能够透过自动调整集群之类的任务,来提高大统计数据环境的可扩展性。
Amazon的大统计数据平台
16. Azure ML
作为一种基于云服务的环境,Azure ML可用作构建,训练和部署各式各样机器学习模型。针对各式各样统计数据预测、发掘与预测任务,Azure ML可以让用户在云平台中对不同体量的统计数据展开计算和操控。
17. Google AI Platform
与Amazon EMR和Azure ML类似,基于用户端的Google AI Platform也能够提供各式各样机器学习栈。Google AI Platform主要包括了各式各样统计资料库、机器学习库、和其他辅助工具。用户能在用户端采用它们,以执行统计数据预测和其他统计数据自然科学类任务。
采用数学模型的统计数据预测辅助工具
数学模型主要是以人脑处理信息的方式,去处理统计数据。换句话说,由于他们的大脑有着数百万个处理外部信息,并随之产生输出的神经元,因此数学模型能遵循此类原理,透过将原始统计数据转换为彼此相关的信息,以实现统计数据预测的目的。
18. PyTorch
Pytorch既是一个Python包,也是一个基于Torch库的深度学习框架。它最初是由Facebook的AI研究实验室(FAIR)开发的,属于深层的数学模型类统计数据自然科学辅助工具。用户能透过:加载数据,预处理统计数据,定义模型,执行训练和评估结果,这样的统计数据预测关键步骤,透过Pytorch对整个数学模型展开编程。此外,借助强大的GPU加速能力,Torch能实现快速的阵列计算。截至2020年9月,torch的R生态控制系统(https://torch.mlverse.org/)中已包含有torch、torchvision、torchaudio、和其他扩展。
PyTorch的数学模型
19. TensorFlow
ow生态控制系统不但能够灵活地提供各式各样库和辅助工具,而且拥有一个广泛的盛行社区,开发人员能展开各式各样问答和知识共享。尽管属于Python库,但是TensorFlow于2017年开始对TensorFlow API引入了R接口。
用作统计数据可视化的统计数据预测辅助工具
统计数据可视化是对从统计数据预测操作过程中抽取的信息,予以图形化表示。此类辅助工具能够让用户透过图形、图表、映射图、和其他可视化元素,直观地了解统计数据的态势、模型和异常值。
20. Matplotlib
Matplotlib是采用Python展开统计数据可视化的出色辅助工具库。它允许用户利用交互式的图形,来创建譬如:直方图、散点图、3D图等质量图表。而且这些图表都能从样式、轴属性、字体等方面被自定义。
Matplotlib的图表示例
21. ggplot2
ggplot2也是一款广受欢迎的统计数据可视化R辅助工具包。它允许用户构建出各类高质量且美观的图形。同时,用户也能透过该辅助工具,高度抽象地修改图中的各式各样组件。
小结
与此相反,大多数统计数据预测辅助工具或计划,都用到了R和Python两种主要C语言,也用到了各式各样相应的包和库。对于从事统计数据预测的开发人员或统计数据自然科学家来说,学习和了解各式各样类型的统计数据预测与发掘辅助工具,是非常必要的。当然,具体如何选择合适的辅助工具,则取决于您当前的业务或研究最终目标。
原文标题:Top 21 Data Mining Tools,作者: Mariana Berga, Alicja Ochman, Pedro Coelho
【51CTO译稿,合作站点转载请注明原文译者和出处为http://51CTO.com】