十款好用的数据挖掘工具详细介绍

2023-06-05 0 431

Python/R

Python 和 R 统计数据生物学家最常用的辅助工具,在机器自学应用领域有比较丰富的库资源,两者都是开放源码并且免费的,因此深受统计数据玩者们的喜爱。一般来说采用 Python 和 R 的都是专精的统计数据生物学家,但随着大统计数据的普及越来越多的非专精专业人士也须要采用统计数据做预估,Python 和 R 对他们来讲门槛就有些高了。因此本文调研了市场上一些较为知名的统计数据挖掘辅助工具,德博瓦桑县不同水平和需求的人优先选择适宜自己的辅助工具。

SAS

SAS(STATISTICAL ANALYSIS SYSTEM)是由美国 NORTH CAROLINA 华盛顿大学 1966 年合作开发的控制系统预估开发工具。SAS(Statistical Analysis System) 是一个组件化、网络化的小型应用开发工具控制系统。它由十多个专用组件构成,机能包括统计数据出访、统计数据储存及管理、应用合作开发、图形处置、统计数据挖掘、报告编制、软件工程形式、博弈论与预估等等。SAS 控制系统基本上能分成五大部份:SAS 统计资料库部份;SAS 预估核心理念;SAS 合作开发呈现出辅助工具;SAS 对分布处置模式的全力支持极其统计此基础架构设计。SAS 控制系统主要完成以统计数据为中心的五大任务:统计数据出访、统计数据处理、数据呈现出、统计数据挖掘。SAS 持续良好的控制系统预估机能,获得了业界广泛好评,这为它在国际专精控制系统预估开发工具应用领域赢得独霸奠定了此基础。

SAS EM 是专门用作统计数据挖掘的组件,它将统计数据挖掘的核心理念操作形式过程分成样本、探索、修补、可视化及评估结果几个期,采用GUI的操作形式介面,普通用户能透过圣索弗拽的形式进行可视化。同时 SAS 也全力支持通操作形式过程式设计的形式来处置统计数据进行预估,但程式设计语法要符合 SAS 的明确要求。SAS EM server 负责处置从应用程序的打来的统计数据挖掘明确要求,并把处置的结果经过 SAS connect 转送给应用程序。SAS EM 中提供了大量的机能组件,可让有经验的专业人士快速精细的调整预估可视化操作形式过程。

较之于 Python/R,SAS 的操作形式更为单纯,运行稳定,但价格也较为昂贵,在金融金融行业和医药金融行业 SAS 较为流行,一般小型银行几乎单厢部署 SAS。SAS 较为适宜高阶普通用户采用。它的自学操作形式过程是艰苦的,最初的期会使人疲惫不堪。然而它还是以强大的统计数据处理和同时处置大批统计CSV的机能,获得高阶普通用户的青睐。

SPSS

SPSS Clementine 是 Spss 公司收购 ISL 赢得的统计数据挖掘辅助工具。在 Gartner 的客户统计数据挖掘辅助工具评估结果中,仅有两家厂商被列为领导者:SAS 和 SPSS。

SPSS 介面友好,采用单纯,但机能强大,能程式设计,能解决绝大部份语言学问题,比 SAS 更为聪慧。它有一个能点选的可视化介面,能够采用输入框来优先选择所须要执行的命令。它也有一个透过复本和黏贴的形式来自学其“语法结构”语言,但这些语法结构一般来说比较复杂而且不是很直观。较之于 SAS,SPSS 在政府和教育金融行业更受欢迎。虽软 SPSS 操作形式相对单纯,但采用者一般来说也须要具备一定的语言学此基础。

Weka

WEKA 的全名是怀卡托智能预估环境(Waikato Environment for Knowledge Analysis),同时 weka 也是新西兰的一种鸟名,而 WEKA 的主要合作开发者也来自新西兰。WEKA 作为一个公开的统计数据挖掘工作平台,集合了大量能承担统计数据挖掘任务的机器自学算法,包括对统计数据进行预处置,分类,回归、聚类、关联规则以及在新的可视化式介面上的可视化。如果想自己实现统计数据挖掘算法的话,能看一看 weka 的接口文档。在 weka 中集成自己的算法甚至借鉴它的形式自己实现可视化辅助工具并不是件很困难的事情。

Weka 基于 Java 合作开发,是一款开放源码且免费的开发工具,有 Windows 版本,Linux 版本和 Mac OS 版本。在统计数据源上全力支持 ARFF(Attribute-Relation File Format)文件,这是一种 ASCII 文本文件,CSV 文件和 JDBC 统计资料库出访机能。

Weka 轻巧便捷,安装单纯,非常适宜个人普通用户和中小企业采用。在操作形式上能可视化操作形式无需程式设计,全力支持圣索弗拽式工作流程采用起来非常方便,但无论是统计数据预处置还是算法优先选择和调参都须要工程师手动完成,因此采用者须要具备一定语言学此基础和统计数据挖掘经验。

十款好用的数据挖掘工具详细介绍
十款好用的数据挖掘工具详细介绍
十款好用的数据挖掘工具详细介绍
十款好用的数据挖掘工具详细介绍

H2O.ai

H2O.ai 是初创公司 Oxdata 于 2014 年推出的一个机器自学平台,它是一个开放源码的分布式内存机器自学平台,具有线性可扩展性。 H2O 全力支持分类、回归、聚类常用的机器自学算法,并且还具有 AutoML 机能。 H2O 的合作开发语言式 Java 和 Python,它的 REST API 允许从外部程序或脚本出访 H2O 的所有机能,该平台包括用于 R、Python、Scala、Java、JSON 和 CoffeeScript / JavaScript 的接口,以及内置的 Web 介面。

虽然 H2O 是开放源码的但其实还是一个商用的机器自学平台,普通用户须要付费采用。H2O 有安装版和云服务,其中安装版只全力支持 Linux。较之于 Weka 的轻巧便捷,H2O 安装部署起来则就相对麻烦,对机器配置也有一定明确要求。

实际上 H2O.ai 平台主要集成了三部份内容:

1、jupter notebook:透过代码的形式处置统计数据和搭可视化型,适用于对可视化熟悉,程式设计熟悉的人;

2、H2Oflow:提供GUI介面,进行圣索弗拽式可视化,适用于熟悉可视化的人,快速统计数据挖掘;提供 21 天的试用授权

3、Driverless:自动可视化,适用于初学者。但须要注意的是 Driverless 须要设置要训练的模型个数上线或最长训练时间,因为自动可视化的底层会尝试对普通用户所优先选择的模型的参数进行 GridSearch(网格搜索),以此来进行模型超参的调优。若没有设置好模型个数上线或最长训练时间,可能会出现跑了很久依然没有结束的情况。这种类似于暴力搜索的寻参形式虽然能自动可视化但缺点也较为明显,一方面耗时长,投入计算资源较大,经济型差,另一方面对于无可视化经验的专业人士也不太友好。Driverless 提供 2 个小时的免费采用,之后就要付费试用。

以下是 Driverless 的介面截图:

十款好用的数据挖掘工具详细介绍
十款好用的数据挖掘工具详细介绍
十款好用的数据挖掘工具详细介绍
十款好用的数据挖掘工具详细介绍
十款好用的数据挖掘工具详细介绍

RapidMiner

RapidMiner 公司总部位于美国马萨诸塞州剑桥,是一款基于 Java 合作开发的统计数据挖掘软件。RapidMiner 机能强大,透过在图像化介面拖拽可视化,可轻松实现统计数据准备、机器自学和预估模型部署,无需程式设计,运算速度快,并且 RapidMiner 还具备自动可视化机能,采用非常方便。

RapidMiner 主要有以下系列产品:

RapidMiner studio: 可零代码操作形式的应用程序开发工具,基于GUI的圣索弗拽操作形式,可手动可视化也可自动可视化。能够实现完整的可视化步骤,从统计数据加载、汇集、到转化和准备阶段(ETL),再到统计数据挖掘和产生预估期。Studio 安装包全力支持 Windows,Linux,MaxOS,有免费版和商业版,其中免费版对于统计数据量有限制,最多可运行 10000 行统计数据。Studio 安装包和授权可在官网申请下载。

RapidMiner Server: 能在局域网服务器或外网连接的服务器上,与 RapidMiner Studio 无缝集成

RapidMiner Radoop: 一个与 Hadoop 集群相连接的扩展,能透过拖拽自带的算子执行 Hadoop 技术特定的操作形式.

RapidMiner go 云平台服务,提供 5 天免费试用期。

总体来讲,RapidMiner 是一款非常不错的开发工具,介面操作形式非常友好,机能完善,既适宜初学者也适宜有经验的工程师,并且可在自动可视化和手动可视化之间切换。

十款好用的数据挖掘工具详细介绍
十款好用的数据挖掘工具详细介绍
十款好用的数据挖掘工具详细介绍
十款好用的数据挖掘工具详细介绍

YModel

YModel 是由易明公司合作开发的一款专注于自动可视化的开发工具,在自动可视化应用领域有着很大优势。

与大多数圣索弗拽式可视化不同的是,自动可视化能实现一键式操作形式,既统计数据预处置,算法优先选择调参,模型优先选择和评估结果等一系列流程完全由开发工具自动完成。这对于初级普通用户来说是非常友好的,也很适宜没有专精统计数据团队中、小企业快速实现数字化应用。

YModel 的自动可视化最大的特点就是不仅模型精准,而且由于它的寻参形式采用自主研发的智能寻参,因此可视化速度很快,非常节省计算资源。例如大多数的自动可视化时间至少以小时起计算,而 YModel 可能几分钟就建好了。为保证模型的泛化能力,YModel 会将几个优质模型自动融合,这也是几乎所有自动可视化产品所不具备的机能。

YModel 基于 Java 和 Python 合作开发,有 Windows 版本和 Linux 版本。和 Weka 类似,YModel 也是一款轻巧便捷的开发工具,安装单纯,一台笔记本就能运行。

YModel 产品分成个人版和企业版,个人版是完全免费的,统计数据量和机能上也没有限制,只是不能连接统计资料库。企业版则能全力支持各种 JDBC 标准接口的统计资料库以及并行运算,虽然企业版是收费的但也相当便宜,一年才几千块人民币。

总体来讲,YModel 的优势就是自动化能力强,轻巧便捷部署方便,经济性强,适宜中小企业、初学者和普通职场专业人士采用。

十款好用的数据挖掘工具详细介绍
十款好用的数据挖掘工具详细介绍
十款好用的数据挖掘工具详细介绍

Orange

Orange 由斯洛文尼亚大学计算与信息学系的生物信息实验室 BioLab 进行合作开发,是一款免费开放源码的统计数据挖掘开发工具,可在官网下载,全力支持 Windows, Linux 和 MacOS。

Orange 由 C++ 和 Python 合作开发,包含了一系列的可视化组件能进行统计数据预处置,可视化和模型评估结果的机能,并且普通用户还能在 Python 里调用 Orange。Orange 能全力支持分类、回归和聚类算法,全流程采用GUI操作形式。

Orange 的优点就是开放源码免费,可视化操作形式,能帮助有经验的工程师快速可视化,适宜高阶普通用户。

十款好用的数据挖掘工具详细介绍
十款好用的数据挖掘工具详细介绍

Google

Google 的人工智能平台能提供端到端机器自学生命周期,普通用户能自行透过Notebooks(一种代管式 Jupyter Notebook 服务)编写代码,采用 Deep Learning VM Image 或 Deep Learning Containers 上最新的开放源码深度自学框架,然后,采用全代管式 Training服务训练模型。也能采用 Google 的 AutoML 无需编写任何代码就能构建机器自学模型。

Google 的人工智能平台采用基于 Tensorflow 的神经网络模型,模型精度较好,但须要海量的算力全力支持,背后是 Google 强大的计算机工程,建立成百上千 cpu、gpu 集群才行,一般的企业和个人很难落地投产,即使是购买 Google 的服务收费也是较为贵的。

在场景方面深度自学适宜于计算机视觉、语音识别、记忆网络、自然语言处置等应用领域。

十款好用的数据挖掘工具详细介绍
十款好用的数据挖掘工具详细介绍

Knime

KNIME 的原始合作开发团队来自硅谷的一家公司,最初为制药金融行业提供开发工具,目前已发展成一个高度可扩展和开放的统计数据处置平台。

KNIME 允许普通用户直观地创建统计数据流(或管道),有优先选择地执行一些或所有预估步骤,然后检查结果,模型和可视化式视图,也就是全力支持圣索弗拽式的GUI可视化形式。KNIME 采用 Java 编写,并且基于 Eclipse,利用其扩展机制来添加提供附加机能的插件。核心理念版本已经包含数百个统计数据集成组件(文件 I / O),统计数据转换(过滤器,转换器,组合器)以及常用的统计数据挖掘和可视化形式。KNIME 还集成了很多其他的开放源码项目,例如从机器自学算法的 Weka,统计包 R 项目,以及 LIBSVM,JFreeChart 的,ImageJ 的和化学合作开发辅助工具包。

KNIME 的产品有开放源码的部份也有闭源的部份,开放源码的部份有,KNIME Analytics Platform、KNIME Extensions、KNIME Integrations、Community Extensions;闭源的部份有,KNIME Server 以及 Partner Extensions。

KNIME Analytics Platform:KNIME 分析平台,我们能利用 KNIME 来GUI的构造统计数据模型。

十款好用的数据挖掘工具详细介绍

KNIME Server:KNIME 服务端程序。KNIME 服务端程序提供了 workflow 协作、自动化执行、自动化管理、自动化部署、引

KNIME Extensions:KNIME 扩展程序。扩展程序主要是在 KNIME Analytics Platform 的此基础上,增加了一些复杂的统计数据类型,以及一些额外的机器算法。比如对于文字处置、图模型等等组件就属于 KNIME 的扩展程序。

KNIME Integrations: KNIME 集成程序。这一部份主要是 KNIME 利用小型的第三方的辅助工具或是语言,用来完成复杂的任务。这里的好处在于,有的机能 KNIME 中没有,但第三方的辅助工具已经实现好了,那么 KNIME 就能直接调用第三方辅助工具进行处置,甚至能再将第三方辅助工具处置后的结果再放回 KNIME 进行下一步处置。对于一些须要大统计数据、机器自学、以及 Python、R 等工具的任务会特别方便。

Community Extensions:社区扩展程序。社区扩展是由社区成员贡献的扩展。其中有一部份被称为 Trusted Community Extensions – 信任的社区扩展,它是社区扩展程序的子集,它的主要特点在于它有一套严格的测试、版本兼容,以及版本的发布运维流程。

Partner Extensions:第三方扩展程序。这部份程序是由第三方公司维护的扩展,一般来说,这一部份扩展须要购买才能采用。

总体来看,Knime 是一个开放性较为高的平台,适宜特殊场景或特殊算法需求较多的企业,其普通用户也是以高阶普通用户为主。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务