不可否认,统计数据是现今 IT 应用领域的一切。此外,那些统计数据每晚都在大量增长。晚些时候,他们常谈及千二进制和兆二进制。但是现在,他们谈及的是TB、PB。纯粹的统计数据是没有象征意义的,直至它变为管用的重要信息和科学知识,从而帮助高层展开重大决策。有鉴于此,他们在市场上进行调查了许多常见的大统计数据应用软件。那些应用软件需用作完成对统计数据展开储存、分析、报告等工作。
15款采用最少的大统计数据挖掘辅助工具
上面如是说了许多常见的开放源码辅助工具和极少有订阅的商业性辅助工具(提供了完全免费IOS)。让他们详尽介绍每一款辅助工具。
一、Apache Hadoop
Apache Hadoop 是两个sysfs因此能处置大统计数据的应用软件架构。它通过 MapReduce 程式设计数学模型处置大统计数据统计数据集。Hadoop 是两个开放源码架构,用 Java 撰写,它提供更多了虚拟化支持。
众所周知,这是最世界顶级的大统计数据辅助工具。实际上,超过三分之一的社会财富 50 强子公司在采用 Hadoop。那些子公司包括Amazon Web services,Hortonworks,IBM,AMD,谷歌,Facebook等。
缺点:
Hadoop 的核心理念竞争优势是其 HDFS(Hadoop sysfs),它能够在同两个磁盘上留存所有类别的统计数据 – 音频、影像、JSON、XML 和纯文档。非常适用作于研制目地。提供更多对统计数据的自动更新。度可伸缩式在计算机系统利皮扬卡上提供更多的度需用的服务项目缺点:
有时候,由于其 3 倍统计数据输入输出,可能会遭遇系统资源问题。I/O 操作方式本可以特别针对更快的操控性展开强化。订价:此应用软件在 Apache 许可下可完全免费采用。
二、CDH (Cloudera Distribution for Hadoop)
CDH着眼于大统计数据的企业级部署。它是完全开放源码的,同时提供更多两个完全免费的分布式平台,包含Apache Hadoop, Apache Spark, Apache Impala等等。采用CDH,你能够收集、处置、管理、探索、建模和储存无限量的统计数据。
缺点:
完全分布式Cloudera 管理器很好地管理 Hadoop 集群。易于实施。不太复杂的管理。高安全性和治理性。缺点:
极少有复杂的 UI 功能,如 CM 服务项目上的图表。多种推荐的安装方法听起来令人困惑。但是,每个节点的许可价格非常昂贵。
订价:CDH 是 Cloudera 的完全免费应用软件版本。但是,如果您有兴趣介绍 Hadoop 集群的成本,则每个节点的成本约为每 TB 1000 到 2000 美元。
三、Cassandra
Apache Cassandra 没有成本和开放源码分布式 NoSQL DBMS,用作管理分布在众多应用领域服务项目器上的大量统计数据,提供更多高需用性。它采用 CQL(Cassandra Structure Language)与统计数据库展开交互。许多采用 Cassandra 的知名子公司包括埃森哲、美国运通、Facebook、通用电气、霍尼韦尔、雅虎等。
缺点:
没有单点故障。非常快速地处置海量数据。日志结构化储存。自动复制。线性可扩展性。简单的环状架构。缺点:
在故障排除和维护方面需要许多额外的努力。集群本来可以改进。行级锁特性不存在。订价:此辅助工具是完全免费的。
详尽请看如下链接