机器学习演算法与Python两栖作战
译者:纳夫县@zhihu
01. 叙述统计数据
叙述统计数据是通过图象或数学方式,对统计数据参考资料展开重新整理、预测,并对统计数据数据的原产状况、位数特点和随机表达式间亲密关系展开估算和叙述的方式。描述统计数据分为零散态势预测、离中态势预测和有关预测三大部分。1. 零散态势预测零散态势预测主要就靠平均值、中数、众如有统计数据分项来表示统计数据数据的零散态势。比如受试者的平均战绩多少?是正偏原产还是负偏原产?2. 离中态势预测离中态势预测主要就靠全距、三分差、平均差、标准差(相关系数:用以测度三个随机表达式亲密关系的统计数据量)、平均值等统计数据分项来科学研究统计数据数据的离中态势。比如,我们想知道三个在校学生的外语战绩中,别的年级内的战绩原产更分散,就能用三个年级的三分差或基点来比较。3. 有关预测有关预测深入探讨统计数据数据间是否具有统计数据学上的相关性。此种亲密关系既主要就包括三个统计数据数据间的单个有关亲密关系,如年纪与对个人应用领域内部空间间的亲密关系,也主要就包括数个统计数据数据间的多重有关亲密关系——如年纪、忧郁症死亡率、对个人应用领域内部空间间的亲密关系;既主要就包括A大B就大(小),A小B就小(大)的直角有关亲密关系,也能是繁杂有关亲密关系(A=Y-B*X);既能是A、B表达式同时增大此种正有关亲密关系,也能是A表达式增大时B表达式增大此种负有关,还主要就包括两表达式协力变动的密切程度——即相亲密关系数。实际上,有关亲密关系惟一不科学研究的统计数据数据亲密关系,是统计数据数据协作变动的外在依照——即因果亲密关系。获得相亲密关系数有什么用呢?具体来说,有了相亲密关系数,就能依照eliminate,展开A表达式到B表达式的估算,这是简而言之的重回预测,因此,有关预测是一种完备的统计数据科学研究方式,它横跨于提出假定,统计数据数据科学研究,统计数据数据预测,统计数据数据科学研究的仍旧。4. 假定统计数据假定统计数据是统计数据学乃至于心理统计数据学中较为年轻的一部分内容。它以统计数据结果为依据,来证明或推翻某个命题。具体来说,是通过预测样本与样本原产的差异,来估算样本与总体、同一样本的前后测战绩差异,样本与样本的战绩差距、总体与总体的战绩差距是否具有显著性差异。正态性检验:很多统计数据方式都要求数值服从或近似服从正态原产,所以之前需要展开正态性检验。常见方式:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。02. 假定检验
1. 参数检验参数检验是在已知总体原产的条件下(一般要求总体服从正态原产)对一些主要就的参数(如均值、百分数、标准差、相亲密关系如有)展开的检验。1)U验 :使用条件:当样本含量n较大时,样本值符合正态原产2)T检验 使用条件:当样本含量n较小时,样本值符合正态原产A:单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别;B:配对样本t检验:当总体均数未知时,且三个样本能配对,同对中的两者在可能会影响处理效果的各种条件方面为相似;C:两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。2. 非参数检验非参数检验则不考虑总体原产是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假定(如总体原产的位罝是否相同,总体原产是否正态)展开检验。适用情况:顺序类型的统计数据参考资料,这类统计数据数据的原产形态一般是未知的。A:虽然是连续统计数据数据,但总体原产形态未知或者非正态;B:体原产虽然正态,统计数据数据也是连续类型,但样本容量极小,如10以下;主要就方式主要就包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。03. 信度预测
介绍:信度(Reliability)即可靠性,它是指采用同样的方式对同一对象重复测量时所得结果的一致性程度。信度分项多以相亲密关系数表示,大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性)和外在一致性系数(跨项目的一致性)。信度预测的方式主要就有以下四种:重测信度法、复本信度法、折半信度法、α信度系数法。方式:(1)重测信度法编辑:这一方式是用同样的问卷对同一组被调查者间隔一定时间重复施测,计算两次施测结果的相亲密关系数。显然,重测信度属于稳定系数。重测信度法特别适用于事实式问卷,如性别、出生年月等在两次施测中不应有任何差异,大多数被调查者的兴趣、爱好、习惯等在短时间内也不会有十分明显的变动。如果没有突发事件导致被调查者的态度、意见突变,此种方式也适用于态度、意见式问卷。由于重测信度法需要对同一样本试测两次,被调查者容易受到各种事件、活动和他人的影响,而且间隔时间长短也有一定限制,因此在实施中有一定困难。(2)复本信度法编辑:让同一组被调查者一次填答两份问卷复本,计算三个复本的相亲密关系数。复本信度属于等值系数。复本信度法要求三个复本除表述方式不同外,在内容、格式、难度和对应题项的提问方向等方面要完全一致,而在实际调查中,很难使调查问卷达到此种要求,因此采用此种方式者较少。(3)α信度系数法编辑:Cronbachα信度系数是目前最常见的信度系数,其公式为:α=(k/(k-1))*(1-(∑Si^2)/ST^2)其中,K为量表中题项的总数, Si^2为第i题得分的题内标准差, ST^2为全部题项总得分的标准差。从公式中能看出,α系数评价的是量表中各题项得分间的一致性,属于外在一致性系数。此种方式适用于态度、意见式问卷(量表)的信度预测。总量表的信度系数最好在0.8以上,0.7-0.8间能接受;分量表的信度系数最好在0.7以上,0.6-0.7还能接受。Cronbach s alpha系数如果在0.6以下就要考虑重新编问卷。检査测量的可信度,比如调查问卷的真实性。分类:1. 外在信度:不同时间测量时量表的一致性程度,常见方式重测信度。2. 外在信度:每个量表是否测量到单个的概念,同时组成两表的外在体项一致性如何,常见方式分半信度。04. 列联表预测
列联表是观测统计数据数据按三个或更多属性(定性表达式)分类时所列出的频数表。列联表又称交互分类表,简而言之交互分类,是指同时依据三个表达式的值,将所科学研究的个案分类。交互分类的目的是将两表达式分组,然后比较各组的原产状况,以寻找表达式间的亲密关系。用于预测离散表达式或定型表达式间是否存在有关。列联表预测的基本问题是,判明所考察的各属性间有无关联,即是否独立。如在前例中,问题是:一对个人是否色盲与其性别是否有关?在r×с表中,若以pi、pj和pij分别表示总体中的个体属于等级Ai,属于等级Bj和同时属于Ai、Bj的概率(pi,pj称边缘概率,pij称格概率),“A、B两属性无关联”的假定能表述为H0:pij=pi·pj,(i=1,2,…,r;j=1,2,…,с),未知参数pij、pi、pj的最大似然估算(见点估算)分别为行和及列和(统称边缘和)为样本大小不一。根据K.皮尔森(1904)的拟合优度检验或似然比检验(见假定检验),当h0成立,且一切pi>0和pj>0时,统计数据量的渐近原产是自由度为(r-1)(с-1) 的Ⅹ原产,式中Eij=(ni·nj)/n称为期望频数。当n足够大,且表中各格的Eij都不太小时,能据此对h0作检验:若Ⅹ值足够大,就拒绝假定h0,即认为A与B有关联。在前面的色觉问题中,曾按此检验,判定出性别与色觉间存在某种关联。需要注意:若样本大小不一n不是很大,则上述基于渐近原产的方式就不适用。对此,在四格表情形,R.A.费希尔(1935)提出了一种适用于所有n的精确检验法。其思想是在固定各边缘和的条件下,依照超几何原产(见概率原产),可以计算观测频数出现任意一种特定排列的条件概率。把实际出现的观测频数排列,以及比它呈现更多关联迹象的所有可能排列的条件概率都算出来并相加,若所得结果小于给定的显著性水平,则判定所考虑的三个属性存在关联,从而拒绝h0。对于二维表,可展开卡方检验,对于三维表,可作Mentel-Hanszel分层预测。列联表预测还主要就包括配对计数资料的卡方检验、行列均为顺序表达式的有关检验。05. 有关预测
科学研究现象间是否存在某种依存亲密关系,对具体有依存亲密关系的现象深入探讨有关方向及有关程度。1. 单有关:三个因素间的有关亲密关系叫单有关,即科学研究时只涉及一个自表达式和一个因表达式;2. 复有关 :三个或三个以上因素的有关亲密关系叫复有关,即科学研究时涉及三个或三个以上的自表达式和因表达式有关;3. 偏有关:在某一现象与多种现象有关的场合,当假定其他表达式不变时,其中三个表达式间的有关亲密关系称为偏有关。06. 标准差预测
使用条件:各样本须是相互独立的随机样本;各样本来自正态原产总体;各总体标准差相等。分类:1. 单因素标准差预测:一项试验只有一个影响因素,或者存在数个影响因素时,只预测一个因素与响应表达式的亲密关系2. 多因素有交互标准差预测:一项实验有数个影响因素,预测数个影响因素与响应表达式的亲密关系,同时考虑数个影响因素间的亲密关系3. 多因素无交互标准差预测:预测数个影响因素与响应表达式的亲密关系,但是影响因素间没有影响亲密关系或忽略影响亲密关系4. 相关系数预测:传统的标准差预测存在明显的弊端,无法控制预测中存在的某些随机因素,使之影响了预测结果的准确度。相关系数预测主要就是在排除了协表达式的影响后再对修正后的主效应展开标准差预测,是将线性重回与标准差预测结合起来的一种预测方式。07. 重回预测
1. 一元线性重回预测:只有一个自表达式X与因表达式Y有关,X与Y都必须是连续型表达式,因表达式y或其残差必须服从正态原产。2. 多元线性重回预测使用条件:预测数个自表达式与因表达式Y的亲密关系,X与Y都必须是连续型表达式,因表达式y或其残差必须服从正态原产 。表达式筛选方式:选择最优eliminate的表达式筛选法主要就包括全横型法(CP法)、逐步重回法,向前引入法和向后剔除法横型诊断方式残差检验:观测值与估算值的差值要跟从正态原产强影响点判断:寻找方式一般分为标准误差法、Mahalanobis距离法共线性诊断:诊断方式:容忍度、标准差扩大因子法(又称膨胀系数VIF)、特点根判定法、条件指针CI、标准差比例,处理方式:增加样本容量或选取另外的重回如主成分重回等3. Logistic重回预测线性重回模型要求因表达式是连续的正态原产表达式,且自表达式和因表达式呈线性亲密关系,而Logistic重回模型对因表达式的原产没有要求,一般用于因表达式是离散时的情况分类:Logistic重回模型有条件与非条件之分,条件Logistic重回模型和非条件Logistic重回模型的区别在于参数的估算是否用到了条件概率。4. 其他重回方式非线性回归、有序重回、Probit重回、加权重回等。