超全干货 | 统计学中常用的数据分析方法汇总！

一、描述统计数据

描述统计数据是透过图象或数学方式，对统计数据参考资料展开整理、预测，并对统计数据数据的原产状态、数字特征和随机表达式间亲密关系展开估计和描述的方式。描述统计数据分为零散态势预测、离中态势预测和有关预测三大部分。

1. 零散态势预测

零散态势预测主要就靠平均值、中数、众如有统计数据分项来表示统计数据数据的零散态势。比如受试者的平均战绩多少？是正偏原产还是负偏原产？

2. 离中态势预测

离中态势预测主要就靠全距、三分差、平均差、标准差（相关系数：用来测度三个随机表达式亲密关系的统计数据量）、平均值等统计数据分项来科学研究统计数据数据的离中态势。比如，我们想知道三个在校学生的外语战绩中，哪个年级内的战绩原产更零散，就能用三个年级的三分差或百分点来比较。

3. 有关预测

有关预测深入探讨统计数据数据间与否具备统计数据学上的相关性。此种亲密关系既主要就包括三个统计数据数据间的单个有关亲密关系，如年纪与对个人应用领域内部空间间的亲密关系，也主要就包括多个统计数据数据间的双重有关亲密关系——如年纪、忧郁症死亡率、对个人应用领域内部空间间的亲密关系；既主要就包括A大B就大(小)，A小B就小(大)的直角有关亲密关系，也能是复杂有关亲密关系（A=Y-B*X）；既能是A、B表达式同时增大此种正有关亲密关系，也能是A表达式增大时B表达式增大此种负有关，还主要就包括两表达式共同变动的密切程度——即相亲密关系数。

实际上，有关亲密关系唯一不科学研究的统计数据数据亲密关系，是统计数据数据协作变动的外在依照——即因果亲密关系。

获得相亲密关系数有什么用呢？简而言之，有了相亲密关系数，就能依照eliminate，展开A表达式到B表达式的估计，这是所谓的回归预测，因此，有关预测是一种完整的统计数据科学研究方式，它横跨于提出假定，统计数据数据科学研究，统计数据数据预测，统计数据数据科学研究的始终。

4. 假定统计数据

假定统计数据是统计数据学甚至于心理统计数据学中较为年轻的一部分内容。它以统计数据结果为依据，来证明或废黜某一公理。简而言之,是透过预测样品与样品原产的差别，来估计样品与整体、同一样品的前后测战绩差别，样品与样品的战绩差别、整体与整体的战绩差别与否具备简并度差别。

正态性检测：很多统计数据方式都要求值顺从或近似于顺从正态原产，所以之前需要展开正态性检测。

常见方式：非参数检测的K-量检测、P-P图、Q-Q图、W检测、动差法。

二、假定检测

1. 参数检测

参数检测是在已知整体原产的条件下（一般要求整体顺从正态原产）对一些主要就的参数(如均值、百分数、标准差、相亲密关系如有）展开的检测。

1）U验：使用条件：当样品含量n较大时，样品值符合正态原产

2）T检测使用条件：当样品含量n较小时，样品值符合正态分布

A：单样品t检测：推断该样品来自的整体均数μ与已知的某一整体均数μ0 (常为理论值或标准值)有无差别；

B：配对样品t检测：当整体均数未知时，且三个样品能配对，同对中的两者在可能会影响处理效果的各种条件方面为相似；

C：两独立样品t检测：无法找到在各方面极为相似的两样品作配对比较时使用。

2. 非参数检测

非参数检测则不考虑整体原产与否已知，常常也不是针对整体参数，而是针对整体的某些一股性假定（如整体原产的位罝与否相同，整体原产与否正态）展开检测。

适用情况：顺序类型的统计数据参考资料，这类统计数据数据的原产形态一般是未知的。A：虽然是连续统计数据数据，但整体原产形态未知或者非正态；B：体原产虽然正态，统计数据数据也是连续类型，但样品容量极小，如10以下；

主要就方式主要就包括：卡方检测、秩和检测、二项检测、游程检测、K-量检测等。

三、信服预测

介绍：信度（Reliability）即可靠性，它是指采用同样的方式对同一对象重复测量时所得结果的一致性程度。

信度分项多以相亲密关系数表示，大致可分为三类：稳定系数（跨时间的一致性），等值系数（跨形式的一致性）和外在一致性系数（跨项目的一致性）。信度预测的方式主要就有以下四种：重测信度法、复本信度法、折半信度法、α信度系数法。

1.重测信度法编辑

这一方式是用同样的问卷对同一组被调查者间隔一定时间重复施测，计算两次施测结果的相亲密关系数。显然，重测信度属于稳定系数。重测信度法特别适用于事实式问卷，如性别、出生年月等在两次施测中不应有任何差别，大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变动。如果没有突发事件导致被调查者的态度、意见突变，此种方式也适用于态度、意见式问卷。由于重测信度法需要对同一样品试测两次，被调查者容易受到各种事件、活动和他人的影响，而且间隔时间长短也有一定限制，因此在实施中有一定困难。

2.复本信度法编辑

让同一组被调查者一次填答两份问卷复本，计算三个复本的相亲密关系数。复本信度属于等值系数。复本信度法要求三个复本除表述方式不同外，在内容、格式、难度和对应题项的提问方向等方面要完全一致，而在实际调查中，很难使调查问卷达到此种要求，因此采用此种方式者较少。

3.α信度系数法编辑

α信度系数是目前最常见的信度系数，其公式为：α=(k/(k-1))*(1-(∑Si^2)/ST^2)

其中，K为量表中题项的总数， Si^2为第i题得分的题内标准差， ST^2为全部题项总得分的方差。从公式中能看出，α系数评价的是量表中各题项得分间的一致性，属于外在一致性系数。此种方式适用于态度、意见式问卷（量表）的信度预测。

总量表的信度系数最好在0.8以上，0.7-0.8间能接受；分量表的信度系数最好在0.7以上，0.6-0.7还能接受。Cronbach s alpha系数如果在0.6以下就要考虑重新编问卷。

检査测量的可信度，比如调查问卷的真实性。

分类：1. 外在信度：不同时间测量时量表的一致性程度，常见方式重测信度。

2. 外在信度：每个量表与否测量到单个的概念，同时组成两表的外在体项一致性如何，常见方式分半信度。

四、列联表预测

列联表是观测统计数据数据按三个或更多属性（定性表达式）分类时所列出的频数表。

列联表又称交互分类表，所谓交互分类，是指同时依据三个表达式的值，将所科学研究的个案分类。交互分类的目的是将两表达式分组，然后比较各组的原产状况，以寻找表达式间的亲密关系。

用于预测离散表达式或定型表达式间与否存在有关。

列联表预测的基本问题是，判明所考察的各属性间有无关联，即与否独立。如在前例中，问题是：一对个人与否色盲与其性别与否有关？在r×с表中，若以pi、pj和pij分别表示整体中的个体属于等级Ai，属于等级Bj和同时属于Ai、Bj的概率（pi，pj称边缘概率，pij称格概率）,“A、B两属性无关联”的假定能表述为H0：pij=pi·pj，(i=1，2，…，r；j=1,2,…，с)，未知参数pij、pi、pj的最大似然估计（见点估计）分别为行和及列和（统称边缘和）为样品大小。

依照K.皮尔森(1904)的拟合优度检测或似然比检测（见假定检测）,当h0成立，且一切pi>0和pj>0时，统计量的渐近原产是自由度为(r－1)(с－1) 的Ⅹ原产，式中Eij=(ni·nj)/n称为期望频数。当n足够大，且表中各格的Eij都不太小时，能据此对h0作检测：若Ⅹ值足够大，就拒绝假定h0，即认为A与B有关联。在前面的色觉问题中，曾按此检测，判定出性别与色觉间存在某种关联。

需要注意：若样品大小n不是很大,则上述基于渐近原产的方式就不适用。对此，在四格表情形，R.A.费希尔(1935)提出了一种适用于所有n的精确检测法。其思想是在固定各边缘和的条件下，依照超几何原产（见概率原产），能计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列，以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加，若所得结果小于给定的简并度水平，则判定所考虑的三个属性存在关联，从而拒绝h0。

对于二维表，可展开卡方检测，对于三维表，可作Mentel-Hanszel分层预测。

列联表预测还主要就包括配对计数资料的卡方检测、行列均为顺序表达式的有关检测。

五、有关预测

科学研究现象间与否存在某种依存亲密关系，对具体有依存亲密关系的现象深入探讨有关方向及有关程度。

1. 单有关：三个因素间的有关亲密关系叫单有关，即科学研究时只涉及一个自表达式和一个因表达式；

2. 复有关：三个或三个以上因素的有关亲密关系叫复有关，即科学研究时涉及三个或三个以上的自表达式和因表达式有关；

3. 偏有关：在某一现象与多种现象有关的场合，当假定其他表达式不变时，其中三个表达式间的有关亲密关系称为偏有关。

六、标准差预测

使用条件：各样品须是相互独立的随机样品；各样品来自正态原产整体；各整体标准差相等。

分类：1. 单因素标准差预测：一项试验只有一个影响因素，或者存在多个影响因素时，只预测一个因素与响应表达式的亲密关系

2. 多因素有交互标准差预测：一项实验有多个影响因素，预测多个影响因素与响应表达式的亲密关系，同时考虑多个影响因素间的亲密关系

3. 多因素无交互标准差预测：预测多个影响因素与响应表达式的亲密关系，但是影响因素间没有影响亲密关系或忽略影响亲密关系

4. 相关系数预测：传统的标准差预测存在明显的弊端，无法控制预测中存在的某些随机因素，使之影响了预测结果的准确度。相关系数预测主要就是在排除了协表达式的影响后再对修正后的主效应展开标准差预测，是将线性回归与标准差预测结合起来的一种预测方式。

七、回归预测

1. 一元线性回归预测

只有一个自表达式X与因表达式Y有关，X与Y都必须是连续型表达式，因表达式y或其残差必须服从正态原产。

2. 多元线性回归预测使用条件

预测多个自表达式与因表达式Y的亲密关系，X与Y都必须是连续型表达式，因表达式y或其残差必须顺从正态原产。

表达式筛选方式：选择最优eliminate的表达式筛选法主要就包括全横型法（CP法）、逐步回归法，向前引入法和向后剔除法

横型诊断方式

残差检测：观测值与估计值的差值要跟从正态原产

强影响点判断：寻找方式一般分为标准误差法、Mahalanobis距离法

共线性诊断：诊断方式：容忍度、标准差扩大因子法(又称膨胀系数VIF)、特征根判定法、条件指针CI、标准差比例，处理方式：增加样品容量或选取另外的回归如主成分回归等

3. Logistic回归预测

线性回归模型要求因表达式是连续的正态原产表达式，且自变量和因表达式呈线性亲密关系，而Logistic回归模型对因表达式的原产没有要求，一般用于因表达式是离散时的情况

分类：Logistic回归模型有条件与非条件之分，条件Logistic回归模型和非条件Logistic回归模型的区别在于参数的估计与否用到了条件概率。

4. 其他回归方式

非线性回归、有序回归、Probit回归、加权回归等。

End.

作者：Highmarktutor

关于 DataHunter

DataHunter是一家专业的统计数据数据可视化预测和商业智能服务提供商，为企业提供统计数据数据可视化工具、统计数据数据大屏展示工具，同时提供配套的敏捷BI统计数据数据运营技术服务。目前有探索式统计数据数据预测平台 Data Analytics、统计数据数据可视化大屏展示工具Data MAX、统计数据数据中台Data Formula等多款核心产品。