一、neighbor是甚么
简而言之尊品、尊品,neighbor,即是如前所述科学研究第一类的特点,将她们统整,以让同行业型的子代间差别相较小、相近度相较大,相同行业型间的一般来说大、相近度小。neighbor是一类开拓性预测方式,与判别预测相同,neighbor预先无人知晓进行分类的国际标准,即使不晓得如果分成四类,而要会依照样本统计数据的特点,手动展开进行分类。
二、neighbor的应用领域情景
1.消费市场行业龙头、使用者行业龙头
如前所述使用者犯罪行为、平台、货品等各方面对计算结果展开控制点,以对消费市场、使用者展开行业龙头。
2.类型分割
比如说依照经济的有关分项,透过neighbor将相同沿海地区展开进行分类,更进一步科学研究经济与譬如基础教育资金投入、农村居民收入等不利因素的亲密关系。
3.对统计数据后处理
当整体不确切的情况下,先如前所述案例对计算结果展开控制点,再展开重回预测;或是如前所述表达式对计算结果展开控制点,将为数众多表达式分成极少数表达式,再展开重回预测,可增加步入eliminate的表达式数,增加预测技术难度。
三、neighbor的类型
1. Q型控制点
对案例展开控制点,将具备协力特点的案例归入两类,以期对相同行业型的案例展开预测,比如说消费市场、使用者的行业龙头,应用领域的即是Q型控制点。
2. R型控制点
对表达式展开控制点,将具备协力特点的表达式归入两类,以期从为数众多表达式中挑选出具备代表性的表达式展开进一步预测,比如说量表的维度太多,可透过Q型控制点,增加后续预测的表达式数。
四、常用的neighbor方式
neighbor方式有多种,使用相同的neighbor方式,得到的结果会有所相同,但这些结果无法在统计理论上分出优劣,只能针对具体的问题、统计数据特点,多采用几种方式展开尝试,再观察哪一个进行分类结果更符合实际、更合理。
(一)系统控制点法
1.方式介绍
系统neighbor法又称为凝聚型谱系控制点法(Hierarchical Cluster),是应用领域最广的neighbor方式。它的基本逻辑是:先把每个案例(或表达式)看作两类,然后依照案例(或表达式)间的距离或相近性归入小类,再继续根据类型间的距离或是相近性逐步向上归类,直到所有案例都聚合成一大类为止。系统neighbor方式适合样本容量不大的统计数据,一般以小于200个为宜。
该neighbor法的具体步骤如下流程:
(1)将n个案例(或表达式)归入n类,一个案例(或表达式)单独为两类
(2)计算所有类与类间的距离
(3)合并距离最近的两类为新的两类
(4)计算新的两类与当前各类的距离
(5)再次合并距离最近的两类为新的两类
(6)如此重复,直到所有案例(或表达式)全都归入一大类
(7)依照最终的控制点图,决定案例的进行分类数和类型
2.怎样确定进行分类数
在系统neighbor过程中,进行分类数的优先选择自由比较大,既可指定具体进行分类个数,也可以指定进行分类数的范围,或是依照结果输出树状图来优先选择进行分类数。
3.不足
(1)系统控制点是从每个案例开始展开进行分类的,所以当样本容量很大时,计算的工作量也会非常大,因此系统控制点只适合样本不太大的统计数据。如果样本数大于200个,宜采用快速neighbor方式,因为样本越大,层次neighbor的判别图形就会越分散,不易解释。
(2)系统neighbor时,每个案例一旦归入某两类,就不允许再改变,但最初的进行分类可能不是最优的优先选择。
(二)K-均值控制点法
1.方式介绍
也称为快速控制点(K-Means Cluster),是在控制点的类型数已确定的情况下,快速将其他案例归类到相应的类型,适合大样本统计数据的控制点。它的基本逻辑是:依照对样本已有信息的了解,先将统计数据粗略地分成若干类,然后依照一定的原则(最小距离原则、或是相近性原则),修正调整初始的进行分类,并不断迭代调整,直到进行分类合理为止。
该控制点方式的具体步骤如下:
(1)优先选择若干个控制点中心,依据与控制点中心的距离分出初始进行分类
(2)判断初始进行分类是否合理
(3)如果合理,则完成进行分类
(4)如果不合理,再依照一定的原则,修改调整进行分类
2.怎样确定进行分类数
快速控制点的进行分类数需要提前确定固定的值,而且进行分类数确定后就不能更改了。因此,快速控制点的进行分类数的确定需要依照行业特点、对科学研究第一类的预先了解、对科学研究事物的判断,来确定预期的进行分类数。
在实际科学研究中,为了更合理地确定进行分类数,我们还可以先对部分代表性样本展开系统neighbor,从而辅助我们决定如果分成四类。
3.不足
(1)进行分类数从初始进行分类开始就确定不变了,所以要求预先要对样本有足够的了解。
(2)仅限于案例间的控制点(Q型控制点),不能对表达式展开控制点;
(3)案例间的距离的测量方式使用的是欧式距离的平方,因此只能对连续表达式展开控制点。
(三)二阶控制点法
1.方式介绍
也称为两步控制点(TwoStep),其基本逻辑是:以案例或表达式间的距离为依据形成相应的控制点特点树jie来构造控制点特点树,再透过信息准则确定最优分组个数对各个节点展开分组。
二阶控制点预测方式的步骤如下:
(1)预控制点
依照定义的最大类型数对案例展开初步进行分类
(2)正式控制点
对预控制点得到的初步进行分类再展开控制点并最终确定控制点结果
(3)确定进行分类数
在正式控制点的过程中,系统会依照一定的统计国际标准手动确定控制点的最优类型数
2.怎样确定进行分类数
二阶控制点方式相同于前面的两种预测方式,它不需要科学研究人员预先指定具体的进行分类数或是范围,而要在预测过程中,系统会依照一定的统计国际标准手动地优先选择最优的进行分类个数。显然,相比于其他控制点方式,二阶控制点的进行分类结果会更加智能,也能够较大程度地增加人为主观不利因素的干扰。
3.优势
(1)能够同时处理进行分类表达式和连续表达式
(2)可手动优先选择最优的进行分类个数
(3)适用于大样本统计数据
五、neighbor的常规步骤
1.优先选择控制点分项
依照科学研究目的,在neighbor前,确定以甚么样表达式分项为依据展开控制点。优先选择的控制点分项一定要能够反映和覆盖控制点的特点,如果控制点分项不全或是代表性差,将直接影响结果。
优先选择控制点分项的原则和方式如下:
(1)原则
A.表达式对所科学研究的问题有密切亲密关系
B.表达式具备较强的分辨能力
(2)方式
A.依照经验:依照科学研究问题的特点,结合实际工作经验,挑选对控制点效果影响显著的表达式;
B.主成分预测:对所有表达式的统计数据展开主成分预测,依照方差贡献率(>=85%),优先选择主要成分的个数,把起主要成分作用的表达式选出;
C.因子预测:利用因子模型剔除剩余表达式。
2.对统计数据展开国际标准化处理
透过国际标准化处理,消除表达式间的量纲亲密关系的影响,让不同表达式能够在同一个国际标准下展开比较。
3.优先选择控制点方式
依照相同的控制点第一类(案例还是表达式)优先选择相应的控制点方式展开控制点。
4.确定进行分类个数
5.解读预测结果
六、neighbor的注意事项
1.优先选择的控制点分项能代表科学研究第一类
聚类预测的基础依据是比较科学研究主题的特点/性质的差别性,而特点/性质则以数量化的分项来表达。因此,做好neighbor的关键前提,是要选对能很好地代表、衡量科学研究主题特点的分项。
比如说,希望依照学校的科研情况对高校进行进行分类,那就可以优先选择参加科研人数、科研经费、立项课题数等表达式分项作为控制点分项,而不如果优先选择如在校人数、校园面积、年用水量等和科学研究主题无关的分项。
2.对统计数据展开国际标准化处理
由于neighbor主要是如前所述案例或表达式间的距离或是相近性,要保证可比性,就要求统计数据无量纲差别(如数量级、单位上的差别),能够在同一国际标准下展开比较。因此,在neighbor前,需要对统计数据展开处理,将计算结果转化为无量纲的统计数据。常用的转化方式有:
(1)转化为同国际标准的国际标准分:国际标准化处理是最常用的方式之一
(2)用表达式值除以全距(最大值减去最小值)
(3)表达式值减去最小值再除以全距
(4)表达式值除以最大值
3.控制点分项间不应有较强的线性有关亲密关系
neighbor是以各种距离来度量案例间或表达式间的亲疏程度。如果所选的控制点表达式分项间存在较高的线性亲密关系,能够相互替代,那么计算距离时同行业表达式将会重复起作用,将在距离中有较高的权重,从而导致控制点结果偏向该表达式。
【#关于作者#】
中山大学人类学硕士,使用者科学研究工程师、统计数据预测师,主要分享SPSS统计预测、使用者科学研究理论与方式、社会科学科学研究与方式等。