蓝盟IT外包专家，一篇文章让你知道什么是大数据挖掘技术

译者：wuhen

大统计数据如果想造成商业价值，对它的后处理毫无疑问是十分重要的，当中大统计数据发掘和大统计数据发掘就是最重要的两部分。下期小贴士就为我们传授大统计数据发掘控制技术，让我们安安心心搞清楚甚么是大统计数据发掘控制技术。

甚么是大统计数据发掘?

统计数据发掘(Data Mining)从大批的、不全然的、有噪音的、模糊不清的、乱数的统计数据中抽取暗含在当中的、现代人预先不晓得的、但又是潜在性管用的重要信息和科学知识的操作过程。

统计数据发掘第一类

依照重要信息储存文件格式，用于发掘的第一类有关系统计资料库、面向第一类统计资料库、统计基础架构、文档统计管理工具、多媒体统计资料库、内部空间统计资料库、分词统计资料库、同质统计资料库以及Internet等。

统计数据发掘销售业务流程

表述难题：明晰地同时实现销售业务难题，确认统计数据发掘的目地。

统计数据预备：统计数据预备主要包括：优先选择统计数据–在小型统计资料库和统计基础架构最后目标中抽取统计数据发掘的最后目标统计数据集;统计数据后处理–展开统计数据再研磨，主要包括检查统计数据的准确性及统计数据的连续性、去噪音，弥补遗失的域，删掉合宪统计数据等。

统计数据发掘：依照统计数据机能的类别和和统计数据的特征优先选择适当的演算法，在再生和切换过的统计数据K568展开统计数据发掘。

结论预测：对统计数据发掘的结论展开说明和赞扬，切换成为能最后被使用者认知的科学知识。

统计数据发掘进行分类

间接统计数据发掘：最后目标是借助可用的统计数据建立一个模型，这个模型对剩余的统计数据，对一个特定的变量(可以认知成统计资料库中表的属性，即列)展开描述。

间接统计数据发掘：最后目标中没有选出某一具体的变量，用模型展开描述;而是在所有的变量中建立起某种关系。

统计数据发掘的方法

神经网络方法

遗传演算法

遗传演算法是一种基于生物自然优先选择与遗传机理的乱数搜索演算法，是一种仿生全局优化方法。遗传演算法具有的暗含并行性、易于和其它模型结合等性质使得它在统计数据发掘中被加以应用。

决策树方法

决策树是一种常用作预测模型的演算法，它通过将大批统计数据有目的进行分类，从中找到一些有商业价值的，潜在性的重要信息。它的主要优点是描述简单，进行分类速度快，特别适合大规模的统计数据处理。

粗集方法

粗集理论是一种研究不精确、不确认科学知识的数学工具。粗集方法有几个优点：不需要给出额外重要信息;简化输入重要信息的表达内部空间;演算法简单，易于操作。粗集处理的第一类是类似二维关系表的重要信息表。

覆盖正例排斥反例方法

它是借助覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子，到反例集合中逐个比较。与字段取值构成的优先选择子相容则舍去，相反则保留。按此思想循环所有正例种子，将得到正例的规则(优先选择子的合取式)。

统计预测方法

在统计资料库字段项之间存在两种关系：函数关系和相关关系，对它们的预测可采用统计学方法，即借助统计学原理对统计资料库中的重要信息展开预测。可展开常用统计、回归预测、相关预测、差异预测等。

模糊不清集方法

即借助模糊不清集合理论对实际难题展开模糊不清评判、模糊不清决策、模糊不清模式识别和模糊不清聚类预测。系统的复杂性越高，模糊不清性越强，一般模糊不清集合理论是用隶属度来刻画模糊不清事物的亦此亦彼性的。

统计数据发掘任务

关联预测

两个或两个以上变量的取值之间存在某种规律性，就称为关联。统计数据关联是统计资料库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联预测的目地是找出统计资料库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性，还不断引入兴趣度、相关性等参数，使得所发掘的规则更符合需求。

聚类预测

聚类是把统计数据按照相似性归纳成若干类别，同一类中的统计数据彼此相似，不同类中的统计数据相异。聚类预测可以建立宏观的概念，发现统计数据的分布模式，以及可能的统计数据属性之间的相互关系。

进行分类

进行分类就是找出一个类别的概念描述，它代表了这类统计数据的整体重要信息，即该类的内涵描述，并用这种描述来构造模型，一般用规则或决策树模式表示。进行分类是借助训练统计数据集通过一定的演算法而求得进行分类规则。进行分类可被用作规则描述和预测。

预测

预测是借助历史数据找出变化规律，建立模型，并由此模型对未来统计数据的种类及特征展开预测。预测关心的是精度和不确认性，通常用预测方差来度量。

时序模式

时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样，它也是用己知的统计数据预测未来的值，但这些统计数据的区别是变量所处时间的不同。

偏差预测

在偏差中主要包括很多管用的科学知识，统计资料库中的统计数据存在很多异常情况，发现统计资料库中统计数据存在的异常情况是十分重要的。偏差检验的基本方法就是寻找观察结论与参照之间的差别。