16种常用的数据分析方法汇总 - 网站源码_资源分享

时常会有好友问到一个好友，统计数据挖掘常见的分析方式有什么样，我须要自学别的之类之类的问题，今天统计数据挖掘优选给我们重新整理了八种常见的统计数据挖掘方式，供我们参照自学。

一、叙述统计统计数据

形式化统计统计数据是指利用钟表和进行分类，图形以及计筠叙述性统计数据来叙述统计数据的集中态势、对数态势、概率密度、度夏。

1、缺位值充填：常见方式：除去法、平均值法、最轻邻居们法、比例重回法、计算机程序法。

2、环域性检测：很多统计统计数据方式都明确要求值顺从或近似于顺从概率密度函数，所以之前须要展开环域性检测。常见方式：非模块检测的K-量检测、P-P图、Q-Q图、W检测、对顶角法。

二、假定检测

1、模块检测

模块检测是在未明整体原产的前提下（这股明确要求整体顺从概率密度函数）对一些主要的模块(如平均值、平均数、标准差、正态分布等）展开的检测。

1）U验采用前提：当样品浓度n较大时，样品值合乎概率密度函数

2）T检测采用前提：当样品浓度n较半小时，样品值合乎概率密度函数

A 单样品t检测：推测该样品源自的整体硝酸锶μ与未明的某一整体硝酸锶μ0 (班莱班县目标值或Bq)有没有差异；

B 张佩佩样品t检测：当整体硝酸锶未明时，且两个样品可以张佩佩，同对中的二者在可能会影响处理效用的各种前提各方面扱为相近；

C 两分立样品t检测：无法找出在各各方面极其相近的可说品作张佩佩比较时采用。

2、非模块检测

非模块检测则不考虑整体原产与否未明，时常也不是特别针对整体模块，而是特别针对整体的这类这股性假定（如整体原产的位罝与否完全相同，整体原产与否正态）展开检测。

适用情况：顺序类型的统计数据资料，这类统计数据的原产形态一般是未明的。

A 虽然是连续统计数据，但整体原产形态未明或者非环域；

B 体原产虽然环域，统计数据也是连续类型，但样品容量极小，如10以下；

主要方式包括：卡方检测、秩和检测、二项检测、游程检测、K-量检测等。

三、信度分析

检査测量的可信度，例如调查问卷的真实性。

进行分类：

1、外在信度：不同时间测量时量表的一致性程度，常见方式重测信度

2、内在信度；每个量表与否测量到单一的概念，同时组成两表的内在体项一致性如何，常见方式分半信度。

四、列联表分析

用于分析对数变量或定型变量之间与否存在相关。

对于二维表，可展开卡方检测，对于三维表，可作Mentel-Hanszel分层分析。

列联表分析还包括张佩佩计数资料的卡方检测、行列均为顺序变量的相关检测。

五、相关分析

研究现象之间与否存在某种依存关系，对具体有依存关系的现象探讨相关方向及相关程度。

1、单相关：两个因素之间的相关关系叫单相关，即研究时只涉及一个自变量和一个因变量；

2、复相关：三个或三个以上因素的相关关系叫复相关，即研究时涉及两个或两个以上的自变量和因变量相关；

3、偏相关：在某一现象与多种现象相关的场合，当假定其他变量不变时，其中两个变量之间的相关关系称为偏相关。

六、标准差分析

采用前提：各样品须是相互分立的随机样品；各样品源自概率密度函数整体；各整体标准差相等。

进行分类

1、单因素标准差分析：一项试验只有一个影响因素，或者存在多个影响因素时，只分析一个因素与响应变量的关系

2、多因素有交互标准差分析：一顼实验有多个影响因素，分析多个影响因素与响应变量的关系，同时考虑多个影响因素之间的关系

3、多因素无交互标准差分析：分析多个影响因素与响应变量的关系，但是影响因素之间没有影响关系或忽略影响关系

4、协标准差分祈：传统的标准差分析存在明显的弊端，无法控制分析中存在的这类随机因素，使之影响了分祈结果的准确度。协标准差分析主要是在排除了协变量的影响后再对修正后的主效应展开标准差分析，是将线性重回与标准差分析结合起来的一种分析方式，

七、重回分析

进行分类：

1、一元线性重回分析：只有一个自变量X与因变量Y有关，X与Y都必须是连续型变量，因变量y或其残差必须顺从概率密度函数。

2、多元线性重回分析

采用前提：分析多个自变量与因变量Y的关系，X与Y都必须是连续型变量，因变量y或其残差必须顺从概率密度函数。

1）变呈筛选方式：选择最优重回方程的变里筛选法包括全横型法（CP法）、逐步重回法，向前引入法和向后除去法

2）横型诊断方式：

A 残差检测：观测值与估计值的差值要艰从概率密度函数

B 强影响点判断：寻找方式一般分为标准误差法、Mahalanobis距离法

C 共线性诊断：

诊断方式：容忍度、标准差扩大因子法(又称膨胀系数VIF)、特征根判定法、前提指针CI、标准差比例处理方式：增加样品容量或选取另外的重回如主成分重回、岭重回等

3、Logistic重回分析

线性重回模型明确要求因变量是连续的概率密度函数变里，且自变量和因变量呈线性关系，而Logistic重回模型对因变量的原产没有明确要求，一般用于因变量是对数时的情况

进行分类：

Logistic重回模型有前提与非前提之分，条件Logistic重回模型和非前提Logistic重回模型的区别在于模块的估计与否用到了前提概率。

4、其他重回方式非线性重回、有序重回、Probit重回、加权重回等

八、聚类分析

样品个体或指标变量按其具有的特性展开进行分类，寻找合理的度量事物相近性的统计统计数据量。

1、性质进行分类：

Q型聚类分析：对样品展开进行分类处理，又称样品聚类分祈采用距离系数作为统计统计数据量衡量相近度，如欧式距离、极端距离、绝对距离等

R型聚类分析：对指标展开进行分类处理，又称指标聚类分析采用相近系数作为统计统计数据量衡量相近度，正态分布、列联系数等

2、方式进行分类：

1）系统聚类法：适用于小样品的样品聚类或指标聚类，一般用系统聚类法来聚类指标，又称分层聚类

2）逐步聚类法：适用于大样品的样品聚类

3）其他聚类法：两步聚类、K平均值聚类等

九、判别分析

1、判别分析：根据已掌握的一批进行分类明确的样品建立判别函数，使产生错判的事例最少，进而对给定的一个新样品，判断它源自别的整体

2、与聚类分析区别

1）聚类分析可以对样品逬行进行分类，也可以对指标展开进行分类；而判别分析只能对样品

2）聚类分析事先不知道事物的类别，也不知道分几类；而判别分析必须事先知道事物的类别，也知道分几类

3）聚类分析不须要进行分类的历史资料，而直接对样品展开进行分类；而判别分析须要进行分类历史资料去建立判别函数，然后才能对样品展开进行分类

3、展开进行分类：

1）Fisher判别分析法：

以距离为判别准则来进行分类，即样品与哪个类的距离最短就分到哪一类，适用于两类判别；

以概率为判别准则来进行分类，即样品属于哪一类的概率最大就分到哪一类，适用于

适用于多类判别。

2）BAYES判别分析法：

BAYES判别分析法比FISHER判别分析法更加完善和先进，它不仅能解决多类判别分析，而且分析时考虑了统计数据的原产状态，所以一般较多采用；

十、主成分分析

将彼此梠关的一组指标变适转化为彼此分立的一组新的指标变量，并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息。

十一、因子分析

一种旨在寻找隐藏在多变量统计数据中、无法直接观察到却影响或支配可测变量的潜在因子、并估计潜在因子对可测变量的影响程度以及潜在因子之间的相关性的一种多元统计统计数据分析方式

与主成分分析比较：

完全相同：都能够起到済理多个原始变量内在结构关系的作用

不同：主成分分析重在综合原始变适的信息.而因子分析重在解释原始变量间的关系，是比主成分分析更深入的一种多元统计统计数据方式

用途：

1）减少分析变量个数

2）通过对变量间相关关系探测，将原始变量展开进行分类

十二、时间序列分析

动态统计数据处理的统计统计数据方式，研究随机统计数据序列所遵从的统计统计数据规律，以用于解决实际问题；时间序列通常由4种要素组成：态势、季节变动、循环波动和不规则波动。

主要方式：移动平均滤波与指数平滑法、ARIMA横型、量ARIMA横型、ARIMAX模型、向呈自重回横型、ARCH族模型

十三、生存分析

用来研究生存时间的原产规律以及生存时间和相关因索之间关系的一种统计统计数据分析方式

1、包含内容：

1）叙述生存过程，即研究生存时间的原产规律

2）比较生存过程，即研究两组或多组生存时间的原产规律，并展开比较

3）分析危险因素，即研究危险因素对生存过程的影响

4）建立数学模型，即将生存时间与相关危险因素的依存关系用一个数学式子表示出来。

2、方式：

1）统计统计数据叙述：包括求生存时间的分位数、中数生存期、平硝酸锶、生存函数的估计、判断生存时间的图示法，不对所分析的统计数据作出任何统计统计数据推测结论

2）非模块检测：检测分组变量各水平所对应的生存曲线与否一致，对生存时间的原产没有明确要求，并且检测危险因素对生存时间的影响。

A 乘积极限法（PL法）

B 寿命表法(LT法)

3）半模块横型重回分析：在特定的假定之下，建立生存时间随多个危险因素变化的重回方程，这种方式的代表是Cox比例风险重回分析法

4）模块模型重回分析：未明生存时间顺从特定的模块横型时，拟合相应的模块模型，更准确地分析确定变量之间的变化规律

十四、典型相关分析

相关分析一般分析两个变里之间的关系，而典型相关分析是分析两组变里（如3个学术能力指标与5个在校成绩表现指标）之间相关性的一种统计统计数据分析方式。

典型相关分析的基本思想和主成分分析的基本思想相近，它将一组变量与另一组变量之间单变量的多重线性相关性研究转化为对少数几对综合变量之间的简单线性相关性的研究，并且这少数几对变量所包含的线性相关性的信息几乎覆盖了原变量组所包含的全部相应信息。

十五、R0C分析

R0C曲线是根据一系列不同的二进行分类方式(分界值或决定阈）.以真阳性率（灵敏度)为纵坐标，假阳性率（1-特异度)为横坐标绘制的曲线

用途：

1、R0C曲线能很容易地査出任意界限值时的对疾病的识别能力

用途；

2、选择最佳的诊断界限值。R0C曲线越靠近左上角，试验的准确性就越高；

3、两种或两种以上不同诊断试验对疾病识别能力的比较，这股用R0C曲线下面积反映诊断系统的准确性。

十六、其他分析方式

多重响应分析、距离分祈、项目分祈、对应分祈、计算机程序分析、神经网络、系统方程、蒙特卡洛模拟等。

相关文章

微信