对于路子商品副经理来说，介绍有关机器自学演算法的相关基本原理和路子，会对自身的工作有所协助，那么，你介绍机器自学里的监督管理自学演算法吗？第一集该文里，作者便做了一定回收和归纳，一起来看一下。

策略产品经理：深入浅出了解机器学习算法原理马云问董明珠：我这种男人你能看上吗？董明珠高情商回答令人满意

那时他们竭尽全力来谈谈五大机器自学演算法基本原理的长篇，核心最终目标却是给路子商品或是希望从事该方向的老师易懂地讲透机器自学的思想基本原理，协助路子商品建立起来最基础的“辅助工具方案-难题”的知觉路子，钟爱却是建议大家阅读专精的机器自学书刊，介绍更加专精的机器自学演算法基本原理，本该文系列产品意在给商品讲透机器自学的路子和基本原理，那时他们竭尽全力听完剩的4个监督管理自学演算法。

一、基本的机器自学演算法

1. 计算机程序Decision Tree

计算机程序-Decision Tree也是监督管理自学演算法的一类，主要应用于进行分类难题其内，小量也会应用在重回难题上。作为一类特殊的树型结构，其中每个内部结点都代表者两个特性的界定推论，每两个组成部分就代表者推论的结论输入，最后每一个枝叶结点代表者着一类进行分类预测的结论。

举个浅显的范例，咱们拿阿凡达海难事件乘客重要信息来对该乘客研判乘客存活的几率，上面的数学模型透过：异性恋、年纪和与否存在弟妹的特征来做推论，能窥见透过计算机程序窥见：异性恋-年纪-与否有弟妹，来认定你与否能上橡皮艇；优先选择男性或是大于9.5岁且没有弟妹的孩子，该些的群体透过计算机程序认定下来是存活机率较低的；

由上面的范例能知道，计算机程序是透过对一系列产品蛛丝马迹和信息的推论作出的有效重大决策。

1）计算机程序的进行分类

计算机程序根据最终目标表达式的类别能分为两个类别：进行分类表达式计算机程序和连续表达式计算机程序，其实是相关联的他们所谓的进行分类难题和重回难题。

进行分类表达式计算机程序：这是指演算法有两个进行分类的简单明细最终目标表达式。例如，考虑让你预测Arthur本人的身高，作为三个类别之一：高个、矮个、适中；特征可能包括与否爱吃牛奶、与否爱打篮球、父母的身高、每天的睡眠时长。计算机程序将从这些特征中自学，在每个数据点通过每个结点后，它将在高个、矮个、适中三个进行分类最终目标中的两个具体的枝叶结点上结束。

连续表达式计算机程序：这是指演算法有两个连续数值的最终目标表达式，例如让你预测北京朝阳区亚运村的房子价格，需要用到房屋地段、地铁线途径情况、小区物业水平、周边商场布局情况、周边的商圈分布，来预测两个连续值的输入在枝叶结点结束，具体是个最终的房屋价格。

2）树的结构组成

由图中可知，主要有三个类别的及结点，核心组成元素如下所示：

根结点-Root node：是计算机程序的第两个结点，根深蒂固的地方；分割-Splitting：是指从根结点开始，将结点划分为两个或多个子结点的过程，例如图中根结点划分为枝叶结点和内部结点的过程；结点-Node：将根结点的结论分割成子结点，并将子结点分割成更多的子结点，如图中的内部结点又称为重大决策结点；枝叶或终端结点 – Leaf or terminal node：两个结点的结束，因为结点不能再被分割，如图中的枝叶结点；组成部分-Branch：整个树的两个组成部分被称为组成部分或子树；父结点和子结点 – Parent and Child Node：子结点与父结点都是相对概念，他们一般把某个结点的上两个链接结点叫做其父结点，反之被称之为子结点；

3）树数学模型的拆分

计算机程序的构建并不是越复杂越好，反而快速的定位和确定他们的重大决策特征对于构建树有较大的协助，在实际场景当中，会有非常多的特征和特征值，所以作为路子商品他们怎么选择合适的特征组合来构建树呢？单个特征又如何制定阈值（前面阿凡达的年纪/有几个弟妹）来评估计算机程序数学模型的好坏。他们来介绍相关联的方法和评估指标。

①基尼不纯度-Gini Impurity

基尼不纯度是用来表示数据集中随机选择两个子项，衡量其被错误分到其他类别当中的机率，表示两个系统的“纯净”程度，计算公式如下所示：

Pi代表者当前结点中属于i类的比例；G（P）∈[0,1],越靠近0纯度越高，代表者计算机程序的进行分类效果越好。

举个简单进行分类计算机程序范例，他们在取X = 2的时候，给左右2个组成部分，左边5个“蓝点”，右边5个”绿点”，套用基尼不纯度的公式，不纯度为0，最理想的进行分类效果。

当他们取x = 1.5的时候，左边有四个“蓝点”，左边的基尼不纯度为0（没有绿点），而右边有两个“蓝点”，四个“绿点”，基尼不纯度为：

两边各自的点数不一样，他们还需要做一下加权平均处理：（0.4*0）+（0.6*0.287）= 0.167跟进行分类前的基尼不纯度0.5相比，他们能认为这个不纯度在进行分类后被降低了0.5 – 0.167 = 0.333，因此又把它称作基尼增益（Gini Gain）。基尼增益值越高，说明他们的进行分类效果越好。

② 信息增益-Information Gain

重要信息增益用来评估重大决策结点的分裂好坏，重要信息增益越大表明分裂的效果越好，其表明了系统的不确定性在减少，这个和“熵”的概念是比较一致的；熵本身是两个热力学方向的概念，形容分子运动的混乱程度。

在计算机程序数学模型中，他们用熵来衡量重要信息的不确定性，如果树数学模型的单个枝叶结点重要信息含有的进行分类越多，则熵越大。熵越大，表示分裂效果越差。最优的情况是单个枝叶结点只包含一类进行分类。计算方式如下：

先计算父结点的熵，在分别计算各个子结点的熵，最后进行加权平均，父结点的熵减去子结点的熵就表示的是重要信息增益Information Gain。

却是用上面蓝绿点的范例，当x = 2的时候，“蓝点”和“绿点”完美分离，E分界线左侧 = 0 ，E分界线右侧= 0，公式如下：所以x = 2的加权熵 = 0 * 5/10 +0 * 5/10 = 0；

当x = 1.5 的时候，左侧 “蓝点” 被完美分离，E1（分界线左侧）与E2（分界线右侧）代表者公式如下所示。

所以选择x = 2作为重大决策点的时候，重要信息增益值：1-0 = 1，即系统的不确定性减少了1；选择x = 1.5 作为重大决策点的时候，重要信息增益值：1-0.66 = 0.34，即系统的不确定性减少了0.34；所以选择x = 2作为重大决策点更加合理。

4）树数学模型剪枝

为了防止计算机程序数学模型的组成部分过多，出现过拟合难题，通常他们会做剪枝，剪枝分为预剪枝和后剪枝两种类别。

①预剪枝Pre-pruning

预剪枝是在构造计算机程序的过程中，先对每个结点在划分前进行估计，如果当前结点的划分不能带来计算机程序数学模型泛化性能的提升，则不对当前结点进行划分并且将当前结点标记为叶结点；核心是边构造边剪枝。最终目标是控制计算机程序充分生长，能预先的控制一些参数。

计算机程序的最大深度，如果达到指定深度，就停止生长——最大树深度；控制书中父结点和子结点的最少样本量或是比例。对于父结点，如果样本量地域最小样本量或是比例，就不再分组；对于子结点，如果分组后生成的子结点样本量地域最小样本量或是比例，则不必进行分组；——终端结点最大数量/最小样本数；树结点中输入表达式的最小异质性减小量，如果分组产生的输入变量异质性地域两个指定值，则不用再进行分组。

② 后剪枝Post-pruning

后剪枝是允许计算机程序充分生长，然后在此基础上根据一定的规则，减去计算机程序中不具备代表者性的叶结点，是两个边修边剪的两个过程；在修剪的过程中，不断对当前计算机程序测试样本集合预估的精度和误差，并且推论是竭尽全力却是停止修剪；当然，后剪枝可能会导致数学模型的过度拟合。

5）其他

计算机程序的建模路子在上述当中已经基本阐述完成了，还有包括重回计算机程序下评估的分差法，以及计算机程序数学模型当中ID3、C4.5和CART演算法，后续能开该文单独给大家来做介绍。

2. 随机森林演算法-Random Forest

1）核心思想

把随机森林演算法放在计算机程序之后是因为两者在思想上有串联进阶的理念在里面，随机森林一词在1995年由贝尔实验室提出来的，既然是“森林”那必然是由一颗颗的参天大树构成的，正如名字所示，随机森林能被看做成为两个计算机程序的集合结论，但是不同的计算机程序之间没有关联性。

当进行进行分类任务的时候，新的输入样本进入，就让森林的每一颗计算机程序进行推论和进行分类，每个计算机程序都会得到两个自己的进行分类结论，决策树进行分类结论当中的哪一类进行分类投票最多，随机森林就会把这个结论当做当成最终结论；核心思想与中国古代的“三个臭皮匠顶过两个诸葛亮”有异曲同工之秒。下图比较直白的描述随机森林的核心思想。

2）基本原理说明

从数据集合中随机Random选择n个特征（列），其中集合共m个特征（其中 n抽样特征的动作依次来重复k次，这n个特性经过不同随机组合建立起来k棵计算机程序（或是是数据的不同随机样本，又叫做自助法样本）。对每个计算机程序都传递随机表达式来预测结论，即计算机程序中的终端枝叶结点结论；存储所有预测的结论（最终目标），你就能从k棵计算机程序中得到k种结论。计算每个预测最终目标的得票数再选择模式（最常见的最终目标表达式）。换句话说，将得到高票数的预测最终目标作为随机森林演算法的最终预测，如果是个重回树的话就透过加权平均的方式得到最终预测值，如果是进行分类树就得到具体的进行分类（哪一类进行分类最多）。

归纳：核心思想咱们再来举个栗子，Arthur去北京旅游一周，拜访了一位一直在北京工作的老老师，朋友基于Arthur的预算、对于景点的偏好以及时间安排推荐了几个景点建议，这是景点的计算机程序的思想，老老师基于自己的经验和喜好给Arthur推荐了几个不错的经典。

之后，Arthur又问了很多在北京的前同事、老师讯问建议，他们根据Arthur其他的（有部分重合）诉求，例如历史底蕴、海拔等特征给出了其他的建议，然后Arthur最终选择了推荐次数最多的经典，这是随机森林的演算法思想。

3）随机森林当中的优缺点

优点：

抗过拟合能力：透过加权平均单个重大决策树的结论，降低过拟合的风险性。解决难题多元化：能同时在随机森林中加载进行分类树和重回树，同时处理连续数值和离散的进行分类。效果稳定：即时是数据集中出现两个新的数据点，或是是一棵树进行分类效果有难题也不会影响到整个森林，除非是半数以上的计算机程序都出现了错误预测的难题。

缺点：

计算成本高、耗时长：比单个计算机程序更加的复杂，计算成本偏高；需要更多的样本和时间来做训练。

4）随机森林当中数学模型参数

和前面说的逻辑重回、线性重回以及计算机程序一样，选择合适的数学模型参数是协助随机森林做预测效果的核心关键，同时也决定了数学模型预测的性能效果，他们拿sklearn当中的随机森林参数来举例，核心是为介绍决上述说到的几个缺点。

①建模的速度

并行决策树运行数量，即使用处理器的数量，如果仅允许两个就输入1，如果希望计算速度能够更快能设置多个并行计算机程序。随机数生成器：当数学模型具有两个确定的随机数，并且给定相同的超参数和相同的训练数据时，数学模型将始终产生相同的结论。与否计算袋外得分：袋外抽样是用来协助随机森林做交叉验证的方式，样本的三分之一都不是用来训练数学模型的而只是用来评估性能的，这些样品被称之为袋外样品。

②预测能力

子数学模型的数量：在利用最大投票数或平均值来预测之前，你想要建立子树的数量，其实和前面计算机程序当中控制枝叶结点的路子一样。子树的数量越多，越能提高性能，预测的准确性就越稳定，但是也会放缓计算过程。结点分裂时参与推论的最大特征数：随机森林允许单个计算机程序使用特征的最大数量。枝叶结点最小样本数：内部结点再划分所需最小样本数。