那时的消费市场弥漫着一连串大统计数据辅助工具。它将生产成本组织工作效率,更快的天数管理组织工作带进统计数据挖掘各项任务。下列是最差大统计数据辅助工具条目或其主要就机能和浏览镜像。
1)Hadoop:
在Apache的Hadoop的应用软件别列济夫两个大统计数据架构。它容许跨计算机系统应用软件产业分布式系统处置小型统计数据集。它意在从一般而言伺服器扩充到多台计算机系统计算机系统。
特点:
采用HTTP伺服器端时的加密改良
Hadoop相容磁盘组织工作规范化
全力支持POSIX式样的磁盘扩充特性
它提供更多了强悍的生态系,适于满足用户开发者的预测消费市场需求
它增添了信息处置的稳定性
它容许更慢的信息处置
浏览镜像:https ://hadoop.apache.org/releases.html
2)HPCC:
HPCC是LexisNexis Risk Solution开发的大统计数据辅助工具。它提供更多单一平台,单一架构和单一编程语言,用于信息处置。
特点:
采用更少的代码高效地完成大统计数据各项任务。
提供更多高冗余和可用性
它既可以用于Thor应用软件产业上的复杂信息处置
图形化IDE,用于简化开发,测试和调试
它自动优化并行处置的代码
提供更多增强的可扩充性和性能
ECL代码编译成优化的C ++,它也可以采用C ++库进行扩充
浏览镜像: https ://hpccsystems.com/try-now
3)风暴:
Storm是两个免费的开源大统计数据计算系统。它提供更多分布式系统实时,容错处置系统。具有实时计算机能。
特点:
它基准测试为每个节点每秒处置100万个100字节消息
它采用跨机器应用软件产业运行的并行计算
如果节点死亡,它将自动重启。该组织工作程序将在另两个节点上重新启动
Storm保证每个统计数据单元至少处置一次或完全一次
一旦部署,Storm肯定是Bigdata预测最简单的辅助工具
浏览镜像:http ://storm.apache.org/downloads.html
4)Qubole:
Qubole Data是自主大统计数据管理组织工作平台。它是一种自我管理组织工作的自我优化辅助工具,容许统计数据团队专注于业务成果。
特点:
适用于每个用例的单一平台
开源引擎,针对云进行了优化
全面的安全性,治理和合规性
提供更多可操作的警报,见解和建议,以优化可靠性,性能和生产成本
自动制定策略以避免执行重复的手动操作
浏览镜像:https ://www.qubole.com/
5)卡珊德拉:
在Apache的卡桑德拉统计数据库那时广泛地用于提供更多大量统计数据的有效管理组织工作。
特点:
通过为用户提供更多更低的延迟,全力支持跨多个统计数据中心进行复制
统计数据会自动复制到多个节点以实现容错
它最适合不能丢失统计数据的应用程序,即使整个统计数据中心停机也是如此
Cassandra提供更多全力支持合同和服务,可从第三方获得
浏览镜像: http ://cassandra.apache.org/download/
6)Statwing:
Statwing是一种易于采用的统计辅助工具。它是由大统计数据挖掘师构建的。其现代界面自动选择统计测试。
特点:
在几秒钟内探索任何统计数据
Statwing有助于在几分钟内清理统计数据,探索关系并创建图表
它容许创建导出到Excel或PowerPoint的直方图,散点图,热图和条形图
它还将结果翻译成普通英语,因此预测师不熟悉统计预测
浏览镜像: https ://www.statwing.com/
7)CouchDB:
CouchDB将统计数据存储在JSON文档中,可以采用JavaScript访问Web或查询。它提供更多具有容错存储的分布式系统扩充。它容许通过定义Couch复制协议来访问统计数据。
特点:
CouchDB是两个单节点统计数据库,可以像任何其他统计数据库一样组织工作
它容许在任意数量的伺服器上运行一般而言逻辑统计数据库伺服器
它利用了无处不在的HTTP协议和JSON统计数据格式
跨多个伺服器实例轻松复制统计数据库
简单的文档插入,更新,检索和删除界面
基于JSON的文档格式可以跨不同语言进行翻译
浏览镜像: http ://couchdb.apache.org/
8)Pentaho:
Pentaho提供更多大统计数据辅助工具来提取,准备和混合统计数据。它提供更多可视化和预测,可以改变运营任何业务的方式。这个大统计数据辅助工具可以将大统计数据转化为重要的见解。
特点:
统计数据访问和集成,实现有效的统计数据可视化
它采用户能够在源头构建大统计数据并将其流式传输以进行准确预测
无缝切换或组合信息处置与应用软件产业内执行,以获得最大程度的处置
容许通过轻松访问预测来检查统计数据,包括图表,可视化和报告
· 通过提供更多独特的机能全力支持各种大统计数据源
浏览镜像: http ://www.pentaho.com/download
9)Flink:
Apache Flink是两个开源流处置大统计数据辅助工具。它是分布式系统,高性能,始终可用且准确的统计数据流应用程序。
特点:
提供更多准确的结果,即使对于无序或迟到的统计数据也是如此
它具有状态和容错能力,可以从故障中恢复
它可以在大规模上运行,在数千个节点上运行
具有良好的吞吐量和延迟特性
这个大统计数据辅助工具全力支持采用事件天数语义的流处置和窗口化
它全力支持基于统计数据驱动窗口的天数,计数或会话的灵活窗口
它全力支持各种用于统计数据源和接收器的第三方系统连接器
浏览镜像:https ://flink.apache.org/
10)Cloudera:
Cloudera是最快,最简单,最安全的现代大统计数据平台。它容许
特点:
高性能预测
· 它提供更多多云服务
跨AWS,Microsoft Azure和Google Cloud Platform部署和管理组织工作Cloudera Enterprise
启动和终止应用软件产业,只需在需要时支付所需的费用
开发和培训统计数据模型
报告,探索和自助服务商业智能
提供更多监控和检测的实时洞察
进行准确的模型评分和服务
浏览镜像: https ://www.cloudera.com/
11)亿信BI:
亿信BI是一种大统计数据挖掘辅助工具。深耕大统计数据应用每个环节,专为中国式复杂报表量身打造。亿信BI内置数十种可视化元素和图形,还原事件场景掌握动态统计数据信息。能够快速发现问题,解决问题,找到原因,发现内在关系。真正释放企业统计数据力量,辅导领导决策,驱使企业不断进步
特点:
基于B/S架构、零安装,友好的WEB操作界面、零编程交互式预测,一键更换报表皮肤,异构统计数据库一键迁移。
广泛的数据源全力支持,轻松应对中国式复杂报表,纯WEB打印、多语言切换、报表订阅、计划各项任务。
智能预测引擎、多线程并行计算、路径自动规划、全力支持大统计数据、全力支持应用软件产业部署。
丰富的自定义拓展,开放的集成接口,二次开发平台,灵活相容多种统计数据模型,轻松构建更多应用。
浏览镜像: https ://www.esensoft.com
12)Rapidminer:
RapidMiner是两个开源的大统计数据辅助工具。它用于统计数据准备,机器学习和模型部署。它提供更多了一套产品来构建新的统计数据挖掘流程和设置预测预测。
特点:
容许多种统计数据管理组织工作方法
GUI或批处置
与内部统计数据库集成
交互式,可共享的仪表板
大统计数据预测预测
远程预测处置
统计数据过滤,合并,加入和聚合
构建,培训和验证预测模型
将流统计数据存储到众多统计数据库中
报告和触发的通知
浏览镜像: https ://my.rapidminer.com/nexus/account/index.html#downloads
13)DataCleaner:
DataCleaner是两个统计数据质量预测应用程序和解决方案平台。它具有强悍的统计数据挖掘引擎。它是可扩充的,从而增加了统计数据清理,转换,匹配和合并。
特点:
交互式和探索性统计数据挖掘
模糊重复记录检测
统计数据转换和标准化
统计数据验证和报告
采用参考统计数据清理统计数据
掌握Hadoop统计数据湖中的统计数据提取管道
在用户花费在处置上的天数之前,确保有关统计数据的规则是正确的
查找异常值和其他恶魔细节,以排除或修复不正确的数据
浏览镜像: http ://datacleaner.org/
14)Kaggle:
Kaggle是世界上最大的大统计数据社区。它帮助组织和研究人员发布他们的统计数据和统计统计数据。它是无缝预测统计数据的最差位置。
特点:
发现和无缝预测开放统计数据的最差位置
搜索框以查找打开的统计数据集
有助于开放统计数据移动并与其他统计数据爱好者联系
浏览镜像:https ://www.kaggle.com/
15)蜂巢:
Hive也是两个开源应用软件大统计数据。它容许程序员在Hadoop上预测小型统计数据集。它有助于快速查询和管理组织工作小型统计数据集。
特点:
它全力支持SQL,如用于交互和统计数据建模的查询语言
它采用两个主要就各项任务map和reducer编译语言
它容许采用Java或Python定义这些各项任务
Hive专为管理组织工作和查询结构化统计数据而设计
Hive的SQL语言将用户与Map Reduce编程的复杂性区分开来
它提供更多Java统计数据库连接(JDBC)接口