统计学最常用的「数据分析方法」清单（一） - 网站源码_资源分享

经常会有好友问到一个好友，统计数据数据预测常见的预测方式有甚么样，我须要自学别的等等等等的问题，今天统计数据数据预测优选给我们重新整理了八种常见的统计数据数据预测方式，供我们参照自学。

一、描述统计数据

描述统计数据是通过图象或数学方式，对统计数据参照资料展开重新整理、预测，并对统计数据数据的原产状态、数字特征和随机表达式间亲密关系展开估计和描述的方式。描述统计数据分为分散态势预测和离中态势预测和有关预测三大部分。

1. 分散态势预测

分散态势预测主要靠平均值、中数、众如有统计数据分项来表示统计数据数据的分散态势。比如受试者的平均战绩多少？是正偏原产还是负偏原产？

2. 离中态势预测

离中态势预测主要靠全距、三分差、平均差、标准差（相关系数：用来测度三个随机表达式亲密关系的统计数据量）、平均值等统计数据分项来科学研究统计数据数据的离中态势。比如，他们想晓得三个在校学生的外语战绩中，别的年级内的战绩原产更分散，就能用三个年级的三分差或百分点来比较。

3. 有关预测

有关预测深入探讨统计数据数据间是否具有统计数据学上的相关性。这种亲密关系既主要包括三个统计数据数据间的单个有关亲密关系——如年纪与对个人应用领域内部空间间的亲密关系，也主要包括多个统计数据数据间的双重有关亲密关系——如年纪、忧郁症死亡率、对个人应用领域内部空间间的亲密关系；既主要包括A大B就大(小)，A小B就小(大)的直线有关亲密关系，也能是复杂有关亲密关系（A=Y-B*X）；既能是A、B表达式同时增大此种正有关亲密关系，也能是A表达式增大时B表达式增大此种负有关，还主要包括两表达式共同变动的密切某种程度——即相亲密关系数。

实际上，有关亲密关系唯一不科学研究的统计数据数据亲密关系，是统计数据数据协作变动的外在依照——即因果亲密关系。获得相亲密关系数有甚么用呢？具体来说，有了相亲密关系数，就能依照eliminate，展开A表达式到B表达式的估计，这是所谓的回归预测，因此，有关预测是一种完整的统计数据科学研究方式，它横跨于提出假定，统计数据数据科学研究，统计数据数据预测，统计数据数据科学研究的始终。

比如，他们想晓得对拘留所情境展开甚么改造，能降低逃亡者的暴力行为倾向。他们就须要将不同的囚舍颜色主调、囚舍城市绿化某种程度、牢房ISTAT、Caquet时间、探视时间展开排列组合，然后让每个牢房一种实验处理，然后用因素预测法找出与逃亡者暴力行为倾向的相亲密关系数最高的因素。假定这一因素为牢房ISTAT，他们又要将受试者随机分入不同ISTAT的十几个牢房中生活，继而得到ISTAT和暴力行为倾向两组表达式（即他们讨论过的A、B两列表达式）。然后，他们将ISTAT排入X轴，将暴力行为倾向分排入Y轴，获得了一个很有价值的图象，当某典狱长想晓得，某囚舍扩建到N人/间牢房，暴力行为倾向能降低多少。他们能当前ISTAT和改建后ISTAT带入相应的eliminate，算出扩建前的预期暴力行为倾向和扩建后的预期暴力行为倾向，两统计数据数据之差即典狱长想晓得的结果。

4. 推论统计数据

推论统计数据是统计数据学乃至于心理统计数据学中较为年轻的一部分内容。它以统计数据结果为依据，来证明或推翻某个命题。具体来说,是通过预测样本与样本原产的差异，来估计样本与总体、同一样本的前后测战绩差异，样本与样本的战绩差距、总体与总体的战绩差距是否具有显著性差异。

比如，他们想科学研究教育背景是否会影响人的智力测验战绩。能找100名24岁大学毕业生和100名24岁初中毕业生。采集他们的一些智力测验战绩。用推论统计数据方式展开统计数据数据处理，最后会得出类似这样儿的结论：“研究发现，大学毕业生组的战绩显著高于初中毕业生组的战绩，二者在0.01水平上具有显著性差异，说明大学毕业生的一些智力测验战绩优于中学毕业生组。”

5. 正态性检验

很多统计数据方式都要求数值服从或近似服从正态分布，所以之前须要展开正态性检验。

常见方式：非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。

二、假定检验&参数检验

参数检验是在已知总体原产的条件下（一股要求总体服从正态原产）对一些主要的参数(如均值、百分数、标准差、相亲密关系如有）展开的检验。

⏩ 【U验】使用条件：当样本含量n较大时，样本值符合正态原产

⏩ 【T检验】使用条件：当样本含量n较小时，样本值符合正态原产

单样本t检验：推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别

配对样本t检验：当总体均数未知时，且三个样本能配对，同对中的两者在可能会影响处理效果的各种条件方面扱为相似

两独立样本t检验：无法找到在各方面极为相似的两样本作配对比较时使用

非参数检验：

非参数检验则不考虑总体原产是否已知，常常也不是针对总体参数，而是针对总体的某些一股性假定（如总体原产的位罝是否相同，总体原产是否正态）展开检验。

适用情况：顺序类型的统计数据参照资料，这类统计数据数据的原产形态一般是未知的。A 虽然是连续统计数据数据，但总体原产形态未知或者非正态；B 体原产虽然正态，统计数据数据也是连续类型，但样本容量极小，如10以下

主要方式主要包括：卡方检验、秩和检验、二项检验、游程检验、K-量检验等。

三、信度预测

即可靠性，它是指采用同样的方式对同一对象重复测量时所得结果的一致性某种程度。信度分项多以相亲密关系数表示，大致可分为三类：稳定系数（跨时间的一致性），等值系数（跨形式的一致性）和外在一致性系数（跨项目的一致性）。信度预测的方式主要有以下四种：重测信度法、复本信度法、折半信度法、α信度系数法。

方式如下：

1. 重测信度法编辑

这一方式是用同样的问卷对同一组被调查者间隔一定时间重复施测，计算两次施测结果的相亲密关系数。显然，重测信度属于稳定系数。重测信度法特别适用于事实式问卷，如性别、出生年月等在两次施测中不应有任何差异，大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变动。如果没有突发事件导致被调查者的态度、意见突变，此种方式也适用于态度、意见式问卷。由于重测信度法须要对同一样本试测两次，被调查者容易受到各种事件、活动和他人的影响，而且间隔时间长短也有一定限制，因此在实施中有一定困难。

2. 复本信度法编辑

让同一组被调查者一次填答两份问卷复本，计算三个复本的相亲密关系数。复本信度属于等值系数。复本信度法要求三个复本除表述方式不同外，在内容、格式、难度和对应题项的提问方向等方面要完全一致，而在实际调查中，很难使调查问卷达到此种要求，因此采用此种方式者较少。

3. 折半信度法编辑

折半信度法是将调查项目分为两半，计算两半得分的相亲密关系数，进而估计整个量表的信度。折半信度属于外在一致性系数，测量的是两半题项得分间的一致性。此种方式一般不适用于事实式问卷（如年纪与性别无法相比），常见于态度、意见式问卷的信度预测。

在问卷调查中，态度测量最常见的形式是5级李克特（Likert）量表（李克特量表(Likert scale)是属评分加总式量表最常见的一种，属同一构念的这些项目是用加总方式来计分，单独或个别项目是无意义的。它是由美国社会心理学家李克特于1932年在原有的总加量表基础上改进而成的。该量表由一组陈述组成，每一陈述有”非常同意”、”同意”、”不一定”、”不同意”、”非常不同意”五种回答，分别记为5、4、3、2、1，每个被调查者的态度总分是他对各道题的回答所得分数的加总，这一总分可说明他的态度强弱或他在这一量表上的不同状态。）。展开折半信度预测时，如果量表中含有反意题项，应先将反意题项的得分作逆向处理，以保证各题项得分方向的一致性，然后将全部题项按奇偶或前后分为尽可能相等的两半，计算二者的相亲密关系数（rhh，即半个量表的信度系数），最后用斯皮尔曼-布朗（Spearman-Brown）公式：求出整个量表的信度系数（ru）。

4. α信度系数法

α信度系数是目前最常见的信度系数，其公式为：α=(k/(k-1))*(1-(∑Si^2)/ST^2)。其中，K为量表中题项的总数， Si^2为第i题得分的题内标准差， ST^2为全部题项总得分的标准差。从公式中能看出，α系数评价的是量表中各题项得分间的一致性，属于外在一致性系数。此种方式适用于态度、意见式问卷（量表）的信度预测。

总量表的信度系数最好在0.8以上，0.7-0.8间能接受；分量表的信度系数最好在0.7以上，0.6-0.7还能接受。Cronbach s alpha系数如果在0.6以下就要考虑重新编问卷。用于检査测量的可信度，比如调查问卷的真实性。

分类有2种：

外在信度：不同时间测量时量表的一致性某种程度，常见方式重测信度；

外在信度：每个量表是否测量到单个的概念，同时组成两表的外在体项一致性如何，常见方式分半信度；

四、列联表预测

列联表是观测统计数据数据按三个或更多属性（定性表达式）分类时所列出的频数表。

1. 简介

若总体中的个体可按三个属性A、B分类，A有r个等级A1,A2,…，Ar，B有c个等级B1,B2,…，Bc,从总体中抽取大小为n的样本，设其中有nij个个体的属性属于等级Ai和Bj，nij称为频数，将r×c个nij排列为一个r行c列的二维列联表，简称r×c表。若所考虑的属性多于三个，也可按类似的方式作出列联表，称为多维列联表。

列联表又称交互分类表，所谓交互分类，是指同时依据三个表达式的值，将所科学研究的个案分类。交互分类的目的是将两表达式分组，然后比较各组的原产状况，以寻找表达式间的亲密关系。用于预测离散表达式或定型表达式间是否存在有关。列联表预测的基本问题是，判明所考察的各属性间有无关联，即是否独立。

如在前例中，问题是：一对个人是否色盲与其性别是否有关？在r×с表中，若以pi、pj和pij分别表示总体中的个体属于等级Ai，属于等级Bj和同时属于Ai、Bj的概率（pi，pj称边缘概率，pij称格概率）,“A、B两属性无关联”的假定能表述为H0：pij=pi·pj，(i=1，2，…，r；j=1,2,…，с)，未知参数pij、pi、pj的最大似然估计（见点估计）分别为行和及列和（统称边缘和）为样本大小。依照K.皮尔森(1904)的拟合优度检验或似然比检验（见假定检验）,当h0成立，且一切pi>0和pj>0时，统计数据量的渐近原产是自由度为(r－1)(с－1) 的Ⅹ原产，式中Eij=(ni·nj)/n称为期望频数。当n足够大，且表中各格的Eij都不太小时，能据此对h0作检验：若Ⅹ值足够大，就拒绝假定h0，即认为A与B有关联。在前面的色觉问题中，曾按此检验，判定出性别与色觉间存在某种关联。

2. 注意点

若样本大小n不很大,则上述基于渐近原产的方式就不适用。对此，在四格表情形，R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下，依照超几何原产（见概率原产），能计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列，以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加，若所得结果小于给定的显著性水平，则判定所考虑的三个属性存在关联，从而拒绝h0。

对于二维表，可展开卡方检验，对于三维表，可作Mentel-Hanszel分层预测。列联表预测还主要包括配对计数资料的卡方检验、行列均为顺序表达式的有关检验。

五、有关预测

科学研究现象间是否存在某种依存亲密关系，对具体有依存亲密关系的现象深入探讨有关方向及有关某种程度。

1. 单有关

三个因素间的有关亲密关系叫单有关，即科学研究时只涉及一个自表达式和一个因表达式

2. 复相关

三个或三个以上因素的有关亲密关系叫复有关，即科学研究时涉及三个或三个以上的自表达式和因表达式有关

3. 偏有关

在某一现象与多种现象有关的场合，当假定其他表达式不变时，其中三个表达式间的有关亲密关系称为偏有关。

六、标准差分析

使用条件：各样本须是相互独立的随机样本；各样本来自正态原产总体；各总体标准差相等。有以下几种分类：

单因素标准差预测：一项试验只有一个影响因素，或者存在多个影响因素时，只预测一个因素与响应表达式的亲密关系

多因素有交互标准差预测：一顼实验有多个影响因素，预测多个影响因素与响应表达式的亲密关系，同时考虑多个影响因素间的亲密关系

多因素无交互标准差预测：预测多个影响因素与响应表达式的亲密关系，但是影响因素间没有影响亲密关系或忽略影响关系

相关系数预测：传统的标准差预测存在明显的弊端，无法控制预测中存在的某些随机因素，使之影响了预测结果的准确度。相关系数预测主要是在排除了协表达式的影响后再对修正后的主效应展开标准差预测，是将线性回归与标准差预测结合起来的一种预测方式

七、回归预测

1、一元线性回归预测

只有一个自表达式X与因表达式Y有关，X与Y都必须是连续型表达式，因表达式y或其残差必须服从正态原产。

2、多元线性回归预测

使用条件：预测多个自表达式与因表达式Y的亲密关系，X与Y都必须是连续型表达式，因表达式y或其残差必须服从正态原产。

变呈筛选方式选择最优eliminate的变里筛选法主要包括全横型法（CP法）、逐步回归法，向前引入法和向后剔除法

横型诊断方式：

残差检验：观测值与估计值的差值要艰从正态原产

强影响点判断：寻找方式一般分为标准误差法、Mahalanobis距离法

共线性诊断方式：容忍度、标准差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、标准差比例

处理方式：增加样本容量或选取另外的回归如主成分回归、岭回归等

3、Logistic回归预测

线性回归模型要求因表达式是连续的正态原产变里，且自表达式和因表达式呈线性亲密关系，而Logistic回归模型对因表达式的原产没有要求，一般用于因表达式是离散时的情况。

分类：

Logistic回归模型有条件与非条件之分，条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计是否用到了条件概率。

4、其他回归方式

非线性回归、有序回归、Probit回归、加权回归等

八、聚类预测

聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类预测是一种探索性的预测，在分类的过程中，人们不必事先给出一个分类的标准，聚类预测能够从样本统计数据数据出发，自动展开分类。聚类预测所使用方式的不同，常常会得到不同的结论。不同科学研究者对于同一组统计数据数据展开聚类预测，所得到的聚类数未必一致。

从实际应用的角度看，聚类预测是统计数据数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得统计数据数据的原产状况，观察每一簇统计数据数据的特征，分散对特定的聚簇集合作进一步地预测。聚类预测还能作为其他算法（如分类和定性归纳算法）的预处理步骤。

1. 定义

依据科学研究对象（样品或分项）的特征，对其展开分类的方式，减少科学研究对象的数目。

各类事物缺乏可靠的历史资料，无法确定共有多少类别，目的是将性质相近事物归入一类。各分项间具有一定的有关亲密关系。表达式类型：定类表达式、定量（离散和连续）表达式。

样本个体或分项表达式按其具有的特性展开分类，寻找合理的测度事物相似性的统计数据量。

2. 性质分类

Q型聚类预测：对样本展开分类处理，又称样本聚类预测使用距离系数作为统计数据量衡量相似度，如欧式距离、极端距离、绝对距离等。

R型聚类预测：对分项展开分类处理，又称分项聚类预测使用相似系数作为统计数据量衡量相似度，相亲密关系数、列联系如有。

3. 方式分类

系统聚类法：适用于小样本的样本聚类或分项聚类，一般用系统聚类法来聚类指标，又称分层聚类

逐步聚类法：适用于大样本的样本聚类

其他聚类法：两步聚类、K均值聚类等

各平台同名“职坐标在线”

相关文章

微信