【数据分析师必备】九大常用数据分析方法汇总（上）

– 点选下方“中国统计数据网”订户我吧!-

【数据分析师必备】九大常用数据分析方法汇总（上）

一、方式化统计数据

表述：方式化统计数据是两类统计数据方式的汇整，阐明了进行调查整体的统计数据数据原产优点。方式化统计数据预测要对进行调查整体大部份抒发式的相关统计数据数据进行统计数据性叙述，主要就主要就包括统计数据数据的蟹蛛科花分析、分散态势预测、对数某种程度预测、原产以及许多基本上的统计数据绘图。

应用领域：

①统计数据数据的蟹蛛科花预测。在统计数据数据的后处理部份，借助蟹蛛科花预测和交叠蟹蛛科花预测能检测极度值和缺位值。

②统计数据数据的分散态势预测。用以充分反映统计数据数据的通常水准，常见的分项有平均数、平均收入和复数等。

③统计数据数据的对数某种程度预测。主要就是用以充分反映统计数据数据间的差别某种程度，常见的分项有标准差和平均数。

④统计数据数据的原产。在统计数据预测中，通常来说要假定样品辖下整体的原产归属于概率密度函数，因而须要用偏度和度夏三个分项来检查和样品统计数据数据与否合乎概率密度函数。

⑤绘出统计数据图。用绘图的方式来抒发统计数据数据，要用文本抒发更明晰、更易懂。在SPSS应用领域软件里，能很难地绘出各抒发式的统计数据绘图，主要就包括displayed、饼图和折线图等。

二、重回预测

表述：重回预测是确认三种或三种以内抒发式间互相冲突的定量分析亲密关系的一类统计数据预测方式。重回预测依照牵涉的自抒发式的啥，分成重回和双重重回预测；依照自抒发式的啥，可分成一元重回预测和多元重回预测；依照自抒发式和因抒发式间的亲密关系类型，可分成线性重回预测和非线性重回预测。

应用领域：

①一元线性预测

如果在重回预测中，只主要就包括一个自抒发式X和一个因抒发式Y，且二者的亲密关系可用一条直线近似表示，这种重回预测称为一元线性重回分析。一个经济分项的数值往往受许多因素影响，若其中只有一个因素是主要就的，起决定性作用，则可用一元线性重回进行预测预测。一元线性重回用途广泛，可处理科学技术的实验统计数据数据，也能用于经济现象：统计数据统计数据数据的预测预测。

【数据分析师必备】九大常用数据分析方法汇总（上）

图1 用身高预测体重的散点图以及重回线

②多元线性重回预测

如果重回预测中主要就包括三个或三个以内的自抒发式，且因抒发式和自抒发式间是线性亲密关系，则称为多元线性重回预测。事实上，一类现象常常是与多个因素相联系的，由多个自抒发式的最优组合共同来预测或估计因抒发式，比只用一个自抒发式进行预测或估计更有效，更合乎实际。因而多元线性重回比一元线性重回的实用意义更大。

使用条件：预测多个自抒发式X与因抒发式Y的亲密关系，X与Y都必须是连续型抒发式，因抒发式Y或其残差必须服从概率密度函数。

【数据分析师必备】九大常用数据分析方法汇总（上）

图2 州府统计数据数据中因抒发式谋杀率与自抒发式人口、文化水准、收入水准以及结霜天数的散点图矩阵(包含线性和平滑拟合曲线，以及相应的边际原产)

③Logistic重回预测

线性重回模型要求因抒发式是连续的概率密度函数抒发式，且自抒发式和因抒发式呈线性亲密关系，而Logistic重回模型对因抒发式的原产没有要求，通常用于因抒发式是对数时的情况。常见于预测分类抒发式，其中主要就是二分类抒发式。

例如，探讨影响用户复购的关键因素，并根据关键因素预测用户复购行为发生的概率等。选择两组人群，一组是复购组，一组是非复购组，两组人群必定具有不同的特征与购买行为等。因而因抒发式就为与否复购，值为“是”或“否”，自抒发式就能主要就包括很多了，如年龄、性别、购买频率、客单价、平均下单周期、购买品类占比情况等。自抒发式既能是连续的，也能是分类的。然后通过logistic重回预测，能得到自抒发式的权重，从而能大致了解到底哪些因素是产生复购行为的关键因素。同时能根据关键因素预测用户复购的的可能性。从而能通过运营策略去加大复购的可能性，提升店铺销量。

【数据分析师必备】九大常用数据分析方法汇总（上）

图3 模型拟合图

④其他重回方式：非线性重回、有序重回、Probit重回、加权重回等。

三、标准差预测

表述：标准差预测用于三个及三个以内样品均数差别的显著性检测。由于各种因素的影响，研究所得的统计数据数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。标准差预测是从观测抒发式的标准差入手，研究诸多控制抒发式中哪些抒发式是对观测抒发式有显著影响的抒发式。

使用条件：各样品须是相互独立的随机样品；各样品来自概率密度函数整体；各整体标准差相等。

例如，在饲料养鸡增肥的研究中，某研究所提出的三种饲料配方A、B、C。应该选择哪种饲料，对鸡增肥效果好且便宜?目的是为了比较三种饲料配方下鸡的平均重量与否相等。特选24只相似的雏鸡随机均分成三组，每组各喂一种饲料，60天定期观测它们的重量并记录。得到三组雏鸡重量统计数据数据，比较这三组统计数据数据间与否存在显著性差别。若相等，可任选一类饲料，特别是能选廉价饲料；若不等，应选增肥效果好的饲料。同理，可运用到相似场景中。

应用领域：

①单因素标准差预测：

单因素标准差预测是用以研究一个控制抒发式的不同水准与否对观测抒发式产生了显著影响。这里，由于仅研究单个因素对观测抒发式的影响，因而称为单因素标准差预测。

例如，预测不同施肥量与否给农作物产量带来显著影响，考察地区差别与否影响妇女的生育率，研究学历对工资收入的影响等。这些问题都能通过单因素标准差预测得到答案。

②多因素标准差预测：

多因素标准差预测用以研究三个及三个以内控制抒发式与否对观测抒发式产生显著影响。这里，由于研究多个因素对观测抒发式的影响，因而称为多因素标准差预测。多因素标准差预测不仅能够预测多个因素对观测抒发式的独立影响，更能够预测多个控制因素的交互作用能否对观测抒发式的原产产生显著影响，进而最终找到利于观测抒发式的最优组合。

例如，预测不同品种、不同施肥量对农作物产量的影响时，可将农作物产量作为观测抒发式，品种和施肥量作为控制抒发式。借助多因素标准差预测方式，研究不同品种、不同施肥量是如何影响农作物产量的，并进一步研究哪种品种与哪种水准的施肥量是提高农作物产量的最优组合。

③协标准差预测：

通过上述的预测能看到，不论是单因素标准差预测还是多因素标准差预测，控制因素都是可控的，其各水准能通过人为的努力得到控制和确认。但在许多实际问题中，有些控制因素很难人为控制，但它们的不同水准确实对观测抒发式产生了较为显著的影响。

例如，在研究农作物产量问题时，如果仅考察不同施肥量、品种对农作物产量的影响，不考虑不同地块等因素而进行标准差预测，显然是不全面的。因为事实上有些地块可能有利于农作物的生长，而另许多却不利于农作物的生长。不考虑这些因素进行预测可能会导致：即使不同的施肥量、不同品种农作物产量没有产生显著影响，但预测的结论却可能相反。这个时候就用到协标准差预测。

四、假定检测

表述：假定检测(Hypothesis Testing)是数理统计数据学中根据一定假定条件由样品推断整体的一类方式。具体做法是：根据问题的须要对所研究的整体作某种假定，记作H0；选取合适的统计数据量，这个统计数据量的选取要使得在假定H0成立时，其原产为已知；由实测的样品，计算出统计数据量的值，并根据预先给定的显著性水准进行检测，作出拒绝或接受假定H0的判断。常见的假定检测方式有u-检测法、t检测法、χ2检测法(卡方检测)、F-检测法，秩和检测等。

应用领域：

①参数检测

参数检测对参数平均数、标准差进行的统计数据检测，参数检测是推断统计数据的重要组成部份。

②非参数检测

非参数检测是统计数据预测方式的重要组成部份，它与参数检测共同构成统计数据推断的基本上内容。参数检测是在整体原产方式已知的情况下，对整体原产的参数如均值、标准差等进行推断的方式。但是，在统计数据数据预测过程中，由于种种原因，人们往往无法对整体原产形态作简单假定，此时参数检测的方式就不再适用了。非参数检测正是两类基于这种考虑，在整体标准差未知或知道甚少的情况下，借助样品统计数据数据对整体原产形态等进行推断的方式。由于非参数检测方式在推断过程中不牵涉相关整体原产的参数，因而得名为”非参数”检测。

非参数检测不考虑整体原产与否已知，常常也不是针对整体参数，而是针对整体的某些通常性假定(如整体原产的位罝与否相同，整体原产与否正态)进行检测。

主要就方式主要就包括：卡方检测、秩和检测、二项检测、游程检测、K-量检测等。

end.

【数据分析师必备】九大常用数据分析方法汇总（上）