数据分析系列篇（2）：数据分析方法论 - 网站源码_资源分享

掌控了excel、spss、sas、r那些预测辅助工具之后，他们来了解下统计数据数据预测的基本认识论，其实统计数据数据预测方式不繁杂，他们需要把许多核心理念的预测方式掌控了拨乱反正。

重点主要包括四块，几块是统计数据预测认识论：叙述统计、假设检测、有关预测、方差预测、重回预测、聚类预测、判别预测、主成份与因子预测、时间字符串预测、计算机程序等；

几块是网络营销管理常见预测认识论：SWOT、4P、PEST、SMART、5W2H、User behavior等。

一、统计数据预测认识论：

1.叙述统计数据（Descriptive statistics）：叙述统计数据是通过图象或数学方式，对统计数据参考资料展开重新整理、预测，并对统计数据数据的分布状况、位数特征和概率分布间关系进行估算和叙述的方式。目地是叙述统计数据数据特征，找寻统计数据数据的动因性。叙述统计数据分为分散态势预测和离中态势预测和有关预测三绝大部分。

（1）统计数据数据的蟹蛛科花预测：在统计数据数据的后处理部分，他们曾提及利用蟹蛛科花预测和交叠蟹蛛科花预测来检测极度值。此外，蟹蛛科花预测也可以发现许多统计数据规律性。比如，总收入低的受调查者使用者满意率比总收入高的受调查者高，或者男性的使用者满意率比男性相对而言。不过那些规律性只是表层的特征，在前面的预测中还要经过检测。

（2）统计数据数据的分散态势预测：统计数据数据的分散态势预测是用以充分反映统计数据数据的一般水平，常见的分项有平均数、平均总收入和复数等。各分项的具体内容象征意义如下表所示：

平均数：是来衡量统计数据数据的服务中心边线的重要分项，充分反映了许多统计数据数据本质性的特征，主要包括微积分平均值、平均数微积分平均数、取舍平均数和欧几里得平均数。

平均总收入：是另外一种充分反映统计数据数据的服务中心边线的分项，其确定方式是将所有统计数据数据以Caroni的次序，位于中央的统计数据数据值就是平均总收入。

复数：是指在统计数据数据中发生振幅最高的统计数据数据值。

假如各统计数据数据间的差别某种程度较细，用平均数就有良好的指标性；而假如统计数据数据间的差别某种程度较大，特别是有部分的顽固值的情况，用平均总收入或复数有良好的指标性。

（3）统计数据数据的对数某种程度预测：统计数据数据的对数某种程度预测主要是用来充分反映统计数据数据间的差别某种程度，常见的分项有方差和标准差。方差是标准差的平方，根据不同的统计数据数据类型有不同的计算方式。

（4）统计数据数据的分布：在统计数据预测中，通常要假设样本的分布属于正态分布，统计数据数据的正态性离群值检测，已知标准差Nair检测，未知标准差时，有Grubbs检测，Dixon检测，偏度-峰度法等。其中常见偏度-峰度法需要用偏度和峰度两个分项来检查样本是否符合正态分布。偏度来衡量的是样本分布的偏斜方向和某种程度；而峰度来衡量的是样本分布曲线的尖峰某种程度。一般情况下，假如样本的偏度接近于0，而峰度接近于3，就可以判断总体的分布接近于正态分布。

（5）绘制统计数据图：用图形的形式来表达统计数据数据，比用文字表达更清晰、更简明。在SPSS软件里，可以很容易的绘制各变量的统计数据图形，主要包括条形图、饼图和折线图等。

2.假设检测：是数理统计数据学中根据一定假设条件由样本推断总体的一种方式。具体内容作法是：根据问题的需要对所研究的总体作某种假设，记作H0；选取合适的统计数据量，这个统计数据量的选取要使得在假设H0成立时，其分布为已知；由实测的样本，计算出统计数据量的值，并根据预先给定的显著性水平展开检测，作出拒绝或接受假设H0的判断。常见的假设检测方式有u—检测法、t检测法、χ2检测法(卡方检测)、F—检测法，秩和检测等。

3.有关预测：有关预测是研究现象间是否存在某种依存关系，并对具体内容有依存关系的现象探讨其有关方向以及有关某种程度，是研究概率分布间的相关关系的一种统计数据方式。常见的有线性有关预测、偏有关预测和距离预测。有关预测与重回预测在实际应用中有密切关系。然而在重回预测中，所关心的是一个概率分布Y对另一个（或一组）概率分布X的依赖关系的函数形式。而在有关预测中，所讨论的变量的地位一样，预测侧重于概率分布间的种种有关特征。例如，以X、Y分别记小学生的数学与语文成绩，感兴趣的是二者的关系如何，而不在于由X去预测Y。

4.方差预测(Analysis of Variance，简称ANOVA)：又称“变异数预测”或“F检测”，是R.A.Fisher发明的，用于两个及两个以上样本均数差别的显著性检测。由于各种因素的影响，研究所得的统计数据数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。

方差预测是从观测变量的方差入手，研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

5.重回预测：重回主要的种类有：线性重回，曲线重回，二元logistic重回，多元logistic重回。重回预测的应用是非常广泛的，统计数据软件包使各种重回方式计算十分方便。

一般来说，重回预测是通过规定因变量和自变量来确定变量间的因果关系，建立重回模型，并根据实测统计数据数据来求解模型的各参数，然后评价重回模型是否能够很好的拟合实测统计数据数据；假如能够很好的拟合，则可以根据自变量作进一步预测。

6.聚类预测：聚类主要解决的是在“物以类聚、人以群分”，比如以总收入分群，高富帅VS矮丑穷；比如按职场分群，职场精英VS职场小白等等。

聚类的方式层出不穷，基于使用者间彼此距离的长短来对使用者展开聚类划分的方式依然是当前最流行的方式。大致的思路是这样的：首先确定选择哪些分项对使用者展开聚类；然后在选择的分项上计算使用者彼此间的距离，距离的计算公式很多，最常见的就是直线距离（把选择的分项当作维度、使用者在每个分项下都有相应的取值，可以看作多维空间中的一个点，使用者彼此间的距离就可理解为两者间的直线距离。）；最后聚类方式把彼此距离比较短的使用者聚为一类，类与类间的距离相对比较长。

常见的算法k-means、分层、FCM等。

7.判别预测：从已知的各种分类情况中总结规律性（训练出判别函数），当新样品进入时，判断其与判别函数间的相似某种程度（概率最大，距离最近，离差最小等判别准则）。

常见判别方式：最大似然法，距离判别法，Fisher判别法，Bayes判别法，逐步判别法等。

注意事项：

a. 判别预测的基本条件：分组类型在两组以上，解释变量必须是可测的；

b. 每个解释变量不能是其它解释变量的线性组合（比如出现多重共线性情况时，判别权重会出现问题）；

c. 各解释变量间服从多元正态分布（不符合时，可使用Logistic重回替代），且各组解释变量的协方差矩阵相等（各组协方方差矩阵有显著差别时，判别函数不相同）。

相对而言，即使判别函数违反上述适用条件，也很稳健，对结果影响不大。

应用领域：对客户展开信用预测，寻找潜在客户（是否为消费者，公司是否成功，学生是否被录用等等），临床上用于鉴别诊断。

8.主成份与因子预测：主成份预测基本原理：利用降维（线性变换)的思想，在损失很少信息的前提下把多个分项转化为几个综合分项（主成份),即每个主成份都是原始变量的线性组合,且各主成份间互不有关,使得主成份比原始变量具有某些更优越的性能（主成份必须保留原始变量90%以上的信息），从而达到简化系统结构，抓住问题实质的目地。

因子预测基本原理：利用降维的思想，由研究原始变量有关矩阵内部的依赖关系出发，将变量表示成为各因子的线性组合，从而把许多具有错综繁杂关系的变量归结为少数几个综合因子。（因子预测是主成份的推广，相对于主成份预测，更倾向于叙述原始变量间的有关关系）。

9.时间字符串预测：经典的统计数据预测都假定统计数据数据字符串具有独立性，而时间字符串预测则侧重研究统计数据数据字符串的互相依赖关系。后者实际上是对对数分项的随机过程的统计数据预测，所以又可看作是随机过程统计数据的一个组成部分。例如，记录了某地区第一个月，第二个月，……，第N个月的降雨量，利用时间字符串预测方式，可以对未来各月的雨量展开预报。

10.计算机程序(Decision Tree）：是在已知各种情况发生概率的基础上，通过构成计算机程序来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策预测方式，是直观运用概率预测的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称计算机程序。在机器学习中，计算机程序是一个预测模型，他代表的是对象属性与对象值间的一种映射关系。Entropy = 系统的凌乱某种程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

常见的统计数据数据预测认识论大体的就是那些，结合案例多练习下基本上就明白是什么回事。

二、网络营销管理认识论：

1.SWOT：