统计学最常用的「数据分析方法」清单（二） - 网站源码_资源分享

责任编辑是<语言学最常见的数据挖掘方式目录（二）>，没看完（一）的爸爸妈妈请点选语言学最常见的「数据挖掘方式」目录（一）复习内容哦！

九、基本概念

依照已掌控的一大批展开分类明晰的样本创建辨别函数，使造成误判的案例最多，从而对取值的两个新样本，推论它源自别的整体。

▶ 1. 与neighbor差别

neighbor能对样本逬行展开分类，也能对分项展开展开分类；而基本概念根本无法对样本；

neighbor预先不晓得表达方式的类型，也不晓得分四类；而基本概念要预先晓得表达方式的类型，也晓得分四类；

neighbor不须要展开分类的发展史数据资料，而间接对样本展开展开分类；而基本概念须要展开分类发展史数据资料去创建辨别函数，接着就可以对样本展开展开分类。

▶ 2. 进行展开分类

Fisher基本概念法

以距为辨别原则来展开分类，即样本与别的类的距极短就抽到哪三类，适用于于三类辨别；以机率为辨别原则来展开分类，即样本归属于哪三类的机率最小就抽到哪三类，适用于于沙托梅辨别。

BAYES辨别分析法

BAYES基本概念法比FISHER基本概念法更加完善和先进，它不仅能解决沙托梅基本概念，而且分析时考虑了数据的分布状态，所以一般较多使用。

十、主成分分析

是一种统计方式。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。

主成分分析首先是由K.皮尔森（Karl Pearson）对非随机变量引入的，尔后H.霍特林将此方式推广到随机向量的情形。信息的大小通常见离差平方和或方差来衡量。

▶ 1. 原理

在用统计分析方式研究多变量的课题时，变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形，变量之间是有一定的相关关系的，当两个变量之间有一定相关关系时，能解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量，将重复的变量（关系紧密的变量）删去多余，创建尽可能少的新变量，使得这些新变量是两两不相关的，而且这些新变量在反映课题的信息方面尽可能保持原有的信息。

设法将原来变量重新组合成一组新的互相无关的几个综合变量，同时依照实际须要从中能取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方式叫做主成分分析或称主分量分析，也是数学上用来降维的一种方式。

▶ 2. 缺点

在主成分分析中，我们首先应保证所提取的前几个主成分的累计贡献率达到两个较高的水平（即变量降维后的信息量须保持在两个较高水平上），其次对这些被提取的主成分要都能够给出符合实际背景和意义的解释（否则主成分将空有信息量而无实际含义）。

主成分的解释其含义一般多少带有点模糊性，不像原始变量的含义那么清楚、确切，这是变量降维过程中不得不付出的代价。因此，提取的主成分个数m通常应明显小于原始变量个数p（除非p本身较小），否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。

十一、因子分析

一种旨在寻找隐藏在多变量数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计分析方式。

▶ 1. 与主成分分析比较

相同：都能够起到治理多个原始变量内在结构关系的作用。

不同：主成分分析重在综合原始变适的信息，而因子分析重在解释原始变量间的关系，是比主成分分析更深入的一种多元统计方式。

▶ 2. 用途

减少分析变量个数；

通过对变量间相关关系探测，将原始变量展开展开分类。

十二、时间序列分析动态数据处理的统计方式

研究随机数据序列所遵从的统计规律，以用于解决实际问题。时间序列通常由4种要素组成：趋势、季节变动、循环波动和不规则波动。

▶ 1. 主要方式

移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自回归横型、ARCH族模型。时间序列是指同一变量按事件发生的先后顺序排列起来的一组观察值或记录值。

▶ 2. 构成时间序列的要素

时间

与时间相对应的变量水平

实际数据的时间序列能够展示研究对象在一定时期内的发展变化趋势与规律，因而能从时间序列中找出变量变化的特征、趋势以及发展规律，从而对变量的未来变化展开有效地预测。

时间序列的变动形态一般分为四种：长期趋势变动，季节变动，循环变动，不规则变动。

▶ 3. 时间序列预测法的应用

系统描述：依照对系统展开观测得到的时间序列数据，用曲线拟合方式对系统展开客观的描述；

系统分析：当观测值取自两个以上变量时，可用一个时间序列中的变化去说明另两个时间序列中的变化，从而深入了解取值时间序列造成的机理；

预测未来：一般用ARMA模型拟合时间序列，预测该时间序列未来值；

决策和控制：依照时间序列模型可调整输入变量使系统发展过程保持在目标值上，即预测到过程要偏离目标时便可展开必要的控制；

▶ 4. 特点

假定表达方式的过去趋势会延伸到未来

预测所依据的数据具有不规则性

撇开了市场发展之间的因果关系

▶ 5. 扩展内容

（1）时间序列分析预测法是依照市场过去的变化趋势预测未来的发展，它的前提是假定表达方式的过去会同样延续到未来。表达方式的现实是发展史发展的结果，而表达方式的未来又是现实的延伸，表达方式的过去和未来是有联系的。

市场预测的时间序列分析法，正是依照客观表达方式发展的这种连续规律性，运用过去的发展史数据，通过统计分析，进一步推测市场未来的发展趋势。市场预测中，表达方式的过去会同样延续到未来，其意思是说，市场未来不会发生突然跳跃式变化，而是渐进变化的。

时间序列分析预测法的哲学依据，是唯物辩证法中的基本观点，即认为一切表达方式都是发展变化的，表达方式的发展变化在时间上具有连续性，市场现象也是这样。

市场现象过去和现在的发展变化规律和发展水平，会影响到市场现象未来的发展变化规律和规模水平；市场现象未来的变化规律和水平，是市场现象过去和现在变化规律和发展水平的结果。须要指出，由于表达方式的发展不仅有连续性的特点，而且又是复杂多样的。

因此，在应用时间序列分析法展开市场预测时应注意市场现象未来发展变化规律和发展水平，不一定与其发展史和现在的发展变化规律完全一致。随着市场现象的发展，它还会出现一些新的特点。因此，在时间序列分析预测中，决不能机械地按市场现象过去和现在的规律向外延伸。要要研究分析市场现象变化的新特点，新表现，并且将这些新特点和新表现充分考虑在预测值内。这样就可以对市场现象做出既延续其发展史变化规律，又符合其现实表现的可靠的预测结果。

（2）时间序列分析预测法突出了时间因素在预测中的作用，暂不考虑外界具体因素的影响。时间序列在时间序列分析预测法处于核心位置，没时间序列，就没这一方式的存在。虽然，预测对象的发展变化是受很多因素影响的。但是，运用时间序列分析展开量的预测，实际上将所有的影响因素归结到时间这一因素上，只承认所有影响因素的综合作用，并在未来对预测对象仍然起作用，并未去分析探讨预测对象和影响因素之间的因果关系。

因此，为了求得能反映市场未来发展变化的精确预测值，在运用时间序列分析法展开预测时，要将量的分析方式和质的分析方式结合起来，从质的方面充分研究各种因素与市场的关系，在充分分析研究影响市场变化的各种因素的基础上确定预测值。

须要指出的是，时间序列预测法因突出时间序列暂不考虑外界因素影响，因而存在着预测误差的缺陷，当遇到外界发生较大变化，往往会有较大偏差，时间序列预测法对于中短期预测的效果要比长期预测的效果好。因为客观表达方式，尤其是经济现象，在两个较长时间内发生外界因素变化的可能性加大，它们对市场经济现象必定要造成重大影响。如果出现这种情况，展开预测时，只考虑时间因素不考虑外界因素对预测对象的影响，其预测结果就会与实际状况严重不符。

十三、生存分析

用来研究生存时间的分布规律以及生存时间和相关因索之间关系的一种统计分析方式

▶ 1. 包含内容

描述生存过程，即研究生存时间的分布规律；

比较生存过程，即研究两组或多组生存时间的分布规律，并展开比较；

分析危险因素，即研究危险因素对生存过程的影响；

创建数学模型，即将生存时间与相关危险因素的依存关系用两个数学式子表示出来。

▶ 2. 方式

统计描述：包括求生存时间的分位数、中数生存期、平均数、生存函数的估计、推论生存时间的图示法，不对所分析的数据作出任何统计推断结论；

非参数检验：检验分组变量各水平所对应的生存曲线是否一致，对生存时间的分布没要求，并且检验危险因素对生存时间的影响。A 乘积极限法（PL法）B 寿命表法(LT法)；

半参数横型回归分析：在特定的假设之下，创建生存时间随多个危险因素变化的回归方程，这种方式的代表是Cox比例风险回归分析法；

参数模型回归分析：已知生存时间服从特定的参数横型时，拟合相应的参数模型，更准确地分析确定变量之间的变化规律。

十四、典型相关分析

相关分析一般分析两个变量之间的关系，而典型相关分析是分析两组变量（如3个学术能力分项与5个在校成绩表现分项）之间相关性的一种统计分析方式。

典型相关分析的基本思想和主成分分析的基本思想相似，它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究，并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

十五、R0C分析

R0C曲线是依照一系列不同的二展开分类方式(分界值或决定阈），以真阳性率（灵敏度)为纵坐标，假阳性率（1-特异度)为横坐标绘制的曲线。

用途：

R0C曲线能很容易地査出任意界限值时的对疾病的识别能力用途；

选择最佳的诊断界限值。R0C曲线越靠近左上角，试验的准确性就越高；

两种或两种以上不同诊断试验对疾病识别能力的比较，一股用R0C曲线下面积反映诊断系统的准确性。

十六、其他分析方式

多重响应分析、距分析、项目分析、对应分析、决策树分析、神经网络、系统方程、蒙特卡洛模拟等。

▶ 1. 决策树分析与随机森林

尽管有剪枝等等方式，一棵树的生成肯定还是不如多棵树，因此就有了随机森林，解决决策树泛化能力弱的缺点。（能理解成三个臭皮匠顶过诸葛亮）决策树(Decision Tree）是在已知各种情况发生机率的基础上，通过构成决策树来求取净现值的期望值大于等于零的机率，评价项目风险，推论其可行性的决策分析方式，是直观运用机率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干，故称决策树。在机器学习中，决策树是两个预测模型，他代表的是对象属性与对象值之间的一种映射关系。

▶ 2. Entropy

即系统的凌乱程度，使用算法ID3, C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

▶ 3. 展开分类树（决策树）

这是一种十分常见的展开分类方式。他是一种监管学习，所谓监管学习就是取值一堆样本，每个样本都有一组属性和两个类型，这些类型是预先确定的，那么通过学习得到两个展开分类器，这个展开分类器能够对新出现的对象给出正确的展开分类。这样的机器学习就被称之为监督学习。

优点

决策树易于理解和实现，人们在在学习过程中不须要使用者了解很多的背景知识，这同时是它的能够间接体现数据的特点，只要通过解释后都有能力去理解决策树所表达的意义。

对于决策树，数据的准备往往是简单或者是不必要的，而且能够同时处理数据型和常规型属性，在相对短的时间内能够对大型数据源做出可行且效果良好的结果。易于通过静态测试来对模型展开评测，能测定模型可信度；如果取值两个观察的模型，那么依照所造成的决策树很容易推出相应的逻辑表达式。

缺点

对连续性的字段比较难预测；对有时间顺序的数据，须要很多预处理的工作；当类型太多时，错误可能就会增加的比较快；一般的算法展开分类的时候，只是根据两个字段来展开分类。

各平台同名“职坐标在线”