《大数据导论》知识点15——数据挖掘技术

把销售业务实战经验带入统计数据预估操作过程是获得成功的关键性。

一、统计数据预估的各项任务

预估：用发展史预估今后。

叙述：找出统计数据中潜在性的规律性。

二、演算法进行分类

有监督管理自学①进行分类预估（排序机程序、KNN、可排序性、SVM/数学模型）②预估预估（重回、SVM/数学模型）无监督管理自学①关连预估（Apriori、FP-growth）②控制点预估（k-means、层级控制点、表面积控制点）

三、关连预估

促进作用：辨认出大批统计数据中暗藏的关连性和关联性，从而叙述出三个表达方式中这类特性与此同时再次出现的规律性和商业模式，那些规律性和商业模式是关连准则。

许多表述：

（1）外交事务：两条买卖被称作外交事务。

（2）项：买卖的每一贵重物品被称作三个项。

（3）项集：包涵开始符号或数个项的子集被称作项集。

（4）k-项集：包涵k个项的项集被称作k-项集。

（5）全力支持度算数：三个项分散，外交事务特征值=全力支持度算数

（6）全力支持度：全力支持度=全力支持度算数/总外交事务数。

（7）频密项集：全力支持度小于等同于某一共振振幅的项集称作频密项集。随著项的减少，计算量会极度大。

（8）概率表面积：三个项集在另三个项集再次出现的振幅。全力支持度和概率表面积而已三个状态参数。

（9）强关连准则：小于等同于全力支持度共振振幅和最轻概率表面积共振振幅的准则。关连预估的终极目标是找寻强关连准则。

四、关连准则的经典之作演算法

1、Apriori演算法

2、FP-growth演算法

1、Apriori演算法

①如果三个子集是频发项集，则它的所有子集都是频密项集。

②如果三个子集不是频发项集，则它的所有超集都不是频密项集。

【频密项集：全力支持度小于等同于某一共振振幅的项集称作频密项集。】

2、FP-growth演算法

构建FP树–>根据树产生频密项集–>产生强关连准则该演算法仅需扫描统计数据库两次且无需生成候选项集。

五、进行分类预估

1、排序机程序

2、KNN

3、可排序性

1、排序机程序

排序机程序是三个预估模型，代表的是对象特性与对象值之间的一种映射关系。树的每一结点表示某一对象，每一分叉路径代表某一可能的特性值，最后每一叶节点代表一种进行分类结果。排序机程序方法易于通过静态测试来对模型进行评测，可以测定模型可信度。如果给定三个观察的模型，系统就能很容易地根据所产生的排序机程序方法推导出相应的逻辑表达式。

2、KNN（K最近邻法）

3、可排序性（Bayes法）

可排序性进行分类器：Naive Bayes、TAN、BAN、GBN

六、控制点预估

概念：将一群物理对象或者抽象对象划分成相似的对象类的操作过程。

1、K-means演算法

2、K-medoids演算法

1、K-means演算法

优点：K-means演算法能处理大型统计数据集，结果簇相当紧凑，并且簇和簇之间明显分离。

缺点：（1）类簇数和质点的初始值设定往往对控制点预估的演算法影响较大。

（2）通常在获得三个局部最优值时停止。

（3）只适合对数值型统计数据进行控制点分析。

（4）只适用于控制点预估结果为凸形的统计数据集。

（5）对“噪声”和孤立点统计数据敏感。

2、K-medoids演算法

K-medoids演算法（K中心点演算法）能解决K-means演算法中的“噪声”敏感问题。该演算法使用绝对误差标准来表述三个类簇的紧凑程度。

3、层级控制点预估演算法

传统的凝聚层级控制点预估演算法——AGENES

传统的分裂层级控制点预估演算法——DIANA

文章参考了部分资料，如有侵权请联系删除。

一、统计数据预估的各项任务

二、演算法进行分类

三、关连预估

四、关连准则的经典之作演算法

1、Apriori演算法

2、FP-growth演算法

五、进行分类预估

1、排序机程序

2、KNN（K最近邻法）

3、可排序性（Bayes法）

六、控制点预估

1、K-means演算法

2、K-medoids演算法

3、层级控制点预估演算法

相关文章

微信