“统计数据驱动力重大决策”,为了不许这句话成为空谈,请先装备以下13种思想武器,坚信今后你很大会用上!
第一、效度与效度观念该些也许是概要最难认知的部分,但我真的也最为关键。没有那个观念,重大制定者很有可能在统计数据中沉沦。
简而言之效度,是指两个统计数据或分项自身的可信程度,包括准确度和灵活性 取数方法论与否恰当?是不是不可信性?这属于准确度;每天排序的演算法与否平衡?舰炮与否完全一致?以完全相同的方法排序相同的对象时,准确度与否有波动?这是灵活性。努力做到了以上两个方面,是两个好的统计数据或分项了?只不过还不如,还有两个更关键的不利因素,是效度!
简而言之效度,是指一个统计数据或分项的聚合,需吻合它首先需要来衡量的表达方式,即分项的变动能够代表该表达方式的变动。只有在效度和效度上都符合要求,才是两个有用的统计数据分项。举个范例:要来衡量我皮肤的营养不良情形,我选择了衣著的电话号码作为分项,一方面,完全相同的鞋子款式相关联的实际鞋子大小不一是相同的,会有国际版ME370T等不利因素,使准确度极差;同时,一会穿那个牌匾的鞋子,一会穿那个牌匾的鞋子,使该来衡量方式形成的结果很不平衡;所以,鞋子款式那个分项的效度不如。另一方面,来衡量皮肤营养不良情形用鞋子的款式大小不一?你很大真的荒谬,款式大小不一并不能反映营养不良情形,是吧?因此效度也不足。体脂率,才是效度和效度都比较符合要求的营养不良来衡量分项。
在他们的现实组织工作中,许多人会先入为主地拿了指标就用,这是非常值得提防的。你要切头骨却拿了把钳子,是不是很可恶?效度和效度的其本质,只不过是**统计数据质量**的难题,这是一切分析的终极目标,再怎么重视都不过分!
第二、均衡观念说到天授大家都不孤单,均衡的观念坚信诸位也都能很快认知。简单来说,在统计数据挖掘的过程中,他们需要经常去寻找事情间的均衡亲密关系,且均衡亲密关系往往是事关企业运行的大难题,如市场的供求亲密关系,薪水与工作效率亲密关系,组织工作时数与准确率的亲密关系等等。
均衡思维的关键点,在于寻找能展示出均衡状态的分项!
也是如图中红框,他们要去寻找那个准确的量化分项,来观察天授的倾斜程度。怎么找那个分项呢?以我的经验,一般先找双向型的难题,即高也不是低也不是的难题,然后量化为分项,最后排序成某个比率,长期跟踪后,观察它的效度和效度。
第三、分类观念客户分群、产品归类、市场分级、绩效评价…许多事情都需要有分类的观念。主管拍脑袋也可以分类,通过机器学习演算法也可以分类,那么许多人就模糊了,到底分类观念怎么应用呢?
关键点在于,分类后的表达方式,需要在核心分项上能拉开距离!
后的对象,你能看到他们的分布不是随机的,而是有显著的集群的倾向。
举个范例:假设该图反映了某个消费者分群的结果,横轴代表购买频率,纵轴代表客单价,那么绿色的这群人,是明显的“人傻钱多”的“剁手金牌客户”。
第四、矩阵化观念矩阵观念是分类观念的发展,它不再局限于用量化分项来进行分类。许多时候,他们没有统计数据做为支持,只能通过经验做主管的推断时,是可以把某些关键不利因素组合成矩阵,大致定义出好坏的方向,然后进行分析。大家可以百度经典的管理分析方法“波士顿矩阵”模型。
第五、管道/漏斗观念这种观念方式已经普及:注册转化、购买流程、销售管道、浏览路径等,太多的分析场景中,能找到这种观念的影子。
但我要说,看上去越是普世越是容易认知的模型,它的应用越得谨慎和小心。在漏斗观念当中,他们尤其要注意**漏斗的长度**。
漏斗从哪里开始到哪里结束? 以我的经验,漏斗的环节不该超过5个,且漏斗中各环节的百分比数值,量级不要超过100倍(漏斗第一环节100%开始,到最后两个环节的转化率数值不要低于1%)。若超过了我说的这两个数值标准,建议分为多个漏斗进行观察。当然,这两个是经验数值,仅仅给诸位做个参考~
理由是什么呢?超过5个环节,往往会出现多个重点环节,那么在两个漏斗模型中分析多个关键难题容易产生混乱。数值量级差距过大,数值间波动相互亲密关系很难被察觉,容易遗漏信息。比如,漏斗前面环节从60%变到50%,让你感觉是天大的事情,而漏斗最后环节0.1%的变动不能引起你的注意,可往往是漏斗最后这0.1%的变动非常致命。
第六、相关观念他们观察分项,不仅要看单个分项的变动,还需要观察分项间的相互亲密关系!有正相关亲密关系(图中红色实线)和负相关亲密关系(蓝色虚线)。最好能时常排序分项间的相亲密关系数,定期观察变动。
相关观念的应用太广了,我提往往是被大家忽略的一点。现在的很多企业管理层,面对的难题并不是没有统计数据,而是统计数据太多,却不知道怎么用。相关观念的其中两个应用,**是能够帮助他们找到最关键的统计数据,排除掉过多杂乱统计数据的干扰!
如何执行呢?你可以排序能收集到的多个分项间的相互亲密关系,挑出与其他分项相亲密关系数都相对较高的统计数据分项,分析它的产生逻辑,相关联的难题,并评估效度和效度,若都满足标准,那个分项就能定位为核心分项!
建议大家养成两个习惯,经常排序分项间的相亲密关系数,仔细思考相亲密关系数背后的方法论,有的是显而易见的常识,比如订单数和购买人数,有的
第七、远近度观念现在与许多处在管理层的朋友交流后,发现他们往往手握众多统计数据和报表,注意力却是非常的跳跃和分散。如何避免呢?一是上文说的通过相关观念,找到最核心的难题和分项;二是该些要说的,建立远进度的观念方式。
确定好核心难题后,分析其他业务难题与该核心难题的远近程度,由近及远,把自己的精力有计划地分配上去。比如:近期你地人经历有限,范例举得不恰当的地方还望读者们海涵。
第八、方法论树观念如图的树状方法论坚信大家已经见过许多回了。一般说明方法论树的分叉时,都会提到“分解”和“汇总”的概念。我这里把它变一变,使其更贴近统计数据挖掘,称为“下钻”和“上卷”。当然,这两个词不是我发明的,早已有之。
简而言之下钻,是在分析分项的变动时,按很大的维度不断的分解。比如,按地区维度,从大区到省份,从省份到城市,从省市到区。简而言之上卷是反过来。随着维度的下钻和上卷,统计数据会不断细分和汇总,在那个过程中,他们往往能找到难题的根源。
下钻和上卷并不是局限于两个维度的,往往是多维组合的节点,进行分叉。方法论树引申到演算法领域是重大决策树。有个关键便是何时做出重大决策(判断)。当进行分叉时,他们往往会选择差别最大的两个维度进行拆分,若差别不如大,则那个枝桠就不在细分。能够产生显著差别的节点会被保留,并继续细分,直到分不出差别为止。经过那个过程,他们就能找出影响分项变动的不利因素。
举个简单的范例:他们发现全国客户数量下降了,他们从地区和客户年龄层级两个维度先进行观察,发现各个年龄段的客户都下降,而地区间有的下降有的升高,那他们就按地区来拆分第两个方法论树节点,拆分到大区后,发现各省间的差别是显著的,那就继续拆分到城市,最终发现是浙江省杭州市大量客户且涵盖各个年龄段,被竞争对手的一波推广活动转化走了。就此通过三个层级的方法论树找到了原因。
第九、时间序列观念很多难题,他们找不到横向对比的方法和对象,那么,和历史上的状况比,就将变得非常关键。只不过很多时候,我更愿意用时间维度的对比来分析难题,毕竟发展地看难题,也是“红色方法论”中的关键一环。这种方式容易排除掉一些外在的干扰,尤其适合创新型的分析对象,比如两个新行业的公司,或者一款全新的产品。
时间序列的观念有三个关键点:
一是距今越近的时间点,越要重视**(图中的深浅度,越近期发生的事,越有可能再次发生);
二是要做**同比**(图中的尖头指示,分项往往存在某些周期性,需要在周期中的同一阶段进行对比,才有意义);
三是**异常值出现时,需要重视**(比如出现了历史最低值或历史最高值,建议在时间序列作图时,添加平均值线和平均值加减一倍或两倍标准差线,便于观察异常值)。
周期来衡量清楚,就能很方便地确定一些“阀值”难题,使产品和运营的节奏更明确。
第十、队列分析观念随着统计数据运算能力的提高,队列分析的方式逐渐展露头脚。英文名称为cohort analysis,说实话我不知道怎么表述那个概念,我的认知是按很大的规则,在时间颗粒度上将观察对象切片,组成两个观察样本,然后观察那个样本的某些分项随着时间的演进而产生的变动。目前使用得最多的场景是留存分析。
举个经常用的范例:假设5.17他们举办了一次促销活动,那么将这一天来的新用户作为两个观察样本,观察他们在5.18、5.19…之后每天的活跃情形。
队列分析中,分项只不过是时间序列,相同的是来衡量样本。队列分析中的来衡量样本是在时间颗粒上变动的,而时间序列的样本则相对固定。
第十一、循环/闭环观念循环/闭环的概念可以引申到很多场景中,比如业务流程的闭环、用户生命周期闭环、产品功能使用闭环、市场推广策略闭环等等。许多时候你会真的这是两个不落地的概念,因为提的人很多,干出事情来的范例很少。
但我真的这种思考方式是非常必要的。业务流程的闭环是管理者比较容易定义出来的,列出公司所有业务环节,梳理出业务流程,然后定义各个环节之间相互影响的分项,跟踪这些分项的变动,能从全局上把握公司的运行状况。
比如,一家软件公司的典型业务流:推广行为(市场部)➡流量进入主站(市场+产研)➡注册流程(产研)➡试用体验(产研+销售)➡进入采购流程(销售推荐率/续约率…这里会涉及漏斗观念,如前文所述,**千万不要用两个漏斗来来衡量两个循环**。
有了循环观念,你能比较快的建立有方法论亲密关系的分项体系。
第十二、测试/对比观念AB test,大家肯定不孤单了。那么怎么细化一下那个概念?一是在条件允许的情形下,重大决策前尽量做对比测试;二是测试时,很大要注意参照组的选择,建议任何实验中,都要留有不进行任何变动的一组样本,作为最基本的参照。
保证统计数据质量的前提下,希望大家多做实验,多去发现规律。
第十三、指数化观念指数化观念,是指今后衡量两个难题的多个不利因素分别量化后,组合成两个综合指数(降维),来持续追踪的方式。把那个放在最后讨论,目的是强调它的关键性。前文已经说过,许多管理者面临的难题是“统计数据太多,可用的太少”,这就需要“降维”了,即要把多个分项压缩为单个分项。
指数化的好处非常明显:
一是减少了分项,使管理者精力更为集中;
二是指数化的分项往往都提高了统计数据的效度和效度;
三是指数能长期使用且便于认知。
指数的设计是门大学问,这里简单提三个关键点:
一是要遵循**独立和穷尽**的原则;
二是要注意各分项的单位,尽量做**标准化**来消除单位的影响;
三是权重和需要等于1。
独立穷尽原则,即你所定位的难题,在搜集来衡量该难题的多个分项时,各个分项间尽量相互独立,同时能来衡量该难题的分项尽量穷尽(收集全)。举个范例:当初设计某公司销售部门的分项体系时,目的是来衡量销售部的绩效,确定了核心分项是销售额后,他们将绩效拆分为订单数、客单价、线索转化率、成单周期、续约率5个相互独立的分项,且这5个分项涵盖了销售绩效的各个方面(穷尽)。他们设计的销售绩效综合指数=0.4*订单数+0.2*客单价+0.2*线索转化率+0.1*成单周期+0.1*续约率,各分项都采用max-min方法进行标准化。
通过那个范例,坚信诸位就能认知指数化观念了。
小节本篇内容在我脑中酝酿了2月有余了,但当起笔成文时,依然真的自己的思考还不如全面,经验也不如丰富。各种观念方式的应用,似乎没有孰好孰坏,与否启用看似也比较随机。希望随着我经历的不断丰富,能够总结出一套行之有效的观念技巧,但目前还不行。
总的来说,统计数据质量依然是我真的最大的前提。关键事情说三遍,动手前,很大要保证好统计数据质量!(作者:胡晨川)