收藏!机器学习算法优缺点综述

2023-05-29 0 682

收藏!机器学习算法优缺点综述

责任编辑约2700字,提议写作5两分钟

责任编辑为你如是说机器自学演算法的优劣。

条码:机器自学、广度自学、演算法

产品目录

二阶化演算法(Regularization Algorithms)软件系统演算法(Ensemble Algorithms)计算机程序演算法(Decision Tree Algorithm)重回(Regression)人工智能(Artificial Neural Network)广度自学(Deep Learning)全力支持矢量机(Support Vector Machine)降维演算法(Dimensionality Reduction Algorithms)控制点演算法(Clustering Algorithms)如前所述示例的演算法(Instance-based Algorithms)可计算性演算法(Bayesian Algorithms)关连规则自学演算法(Association Rule Learning Algorithms)图数学模型(Graphical Models)
收藏!机器学习算法优缺点综述

二阶化演算法(Regularization Algorithms)

收藏!机器学习算法优缺点综述

它是另一类方式(一般来说是重回方式)的开拓,此种方式会如前所述数学模型复杂程度对其展开惩处,它讨厌相较单纯能更快的普遍化的数学模型。

范例:

岭重回(Ridge Regression)最轻当然膨胀与优先选择算子(LASSO)GLASSO弹性网络(Elastic Net)最轻角重回(Least-Angle Regression)

优点:

其惩处会减少过拟合总会有解决方式

缺点:

惩处会造成欠拟合很难校准

软件系统演算法(Ensemble algorithms)

收藏!机器学习算法优缺点综述

软件系统方式是由多个较弱的数学模型软件系统数学模型组,其中的数学模型可以单独展开训练,并且它们的预测能以某种方式结合起来去做出一个总体预测。

该演算法主要的问题是要找出哪些较弱的数学模型可以结合起来,以及结合的方式。这是一个非常强大的技术集,因此广受欢迎。

BoostingBootstrapped Aggregation(Bagging)AdaBoost层叠普遍化(Stacked Generalization)(blending)梯度推进机(Gradient Boosting Machines,GBM)梯度提升重回树(Gradient Boosted Regression Trees,GBRT)随机森林(Random Forest)

优点:

当先最先进的预测几乎都使用了演算法集成。它比使用单个数学模型预测出来的结果要精确的多

缺点:

需要大量的维护工作

计算机程序演算法(Decision Tree Algorithm)

收藏!机器学习算法优缺点综述

计算机程序自学使用一个计算机程序作为一个预测数学模型,它将对一个 item(表征在分支上)观察所得映射成关于该 item 的目标值的结论(表征在叶子中)。

树数学模型中的目标是可变的,可以采一组有限值,被称为分类树;在这些树结构中,叶子表示类条码,分支表示表征这些类条码的连接的特征。

范例:

分类和重回树(Classification and Regression Tree,CART)Iterative Dichotomiser 3(ID3)C4.5 和 C5.0(一类强大方式的两个不同版本)

优点:

容易解释非参数型

缺点:

趋向过拟合可能或陷于局部最轻值中没有在线自学

重回(Regression)演算法

收藏!机器学习算法优缺点综述

重回是用于估计两种变量之间关系的统计过程。当用于分析因变量和一个 多个自变量之间的关系时,该演算法能提供很多建模和分析多个变量的技巧。具体一点说,重回分析可以帮助我们理解当任意一个自变量变化,另一个自变量不变时,因变量变化的典型值。最常见的是,重回分析能在给定自变量的条件下估计出因变量的条件期望。

重回演算法是统计学中的主要演算法,它已被纳入统计机器自学。

范例:

普通最轻二乘重回(Ordinary Least Squares Regression,OLSR)线性重回(Linear Regression)逻辑重回(Logistic Regression)逐步重回(Stepwise Regression)多元自适应重回样条(Multivariate Adaptive Regression Splines,MARS)本地散点平滑估计(Locally Estimated Scatterplot Smoothing,LOESS)

优点:

直接、快速知名度高

缺点:

要求严格的假设需要处理异常值

人工智能

收藏!机器学习算法优缺点综述

人工神经网络是受生物神经网络启发而构建的演算法数学模型。

它是一类模式匹配,常被用于重回和分类问题,但拥有庞大的子域,由数百种演算法和各类问题的变体组成。

范例:

感知器反向传播Hopfield 网络径向基函数网络(Radial Basis Function Network,RBFN)

优点:

在语音、语义、视觉、各类游戏(如围棋)的任务中表现极好。演算法可以快速调整,适应新的问题。

缺点:

需要大量数据展开训练训练要求很高的硬件配置数学模型处于黑箱状态,难以理解内部机制元参数(Metaparameter)与网络拓扑优先选择困难。

广度自学(Deep Learning)

收藏!机器学习算法优缺点综述

广度自学是人工智能的最新分支,它受益于当代硬件的快速发展。

众多研究者目前的方向主要集中于构建更大、更复杂的神经网络,目前有许多方式正在聚焦半监督自学问题,其中用于训练的大数据集只包含很少的标记。

范例:

深玻耳兹曼机(Deep Boltzmann Machine,DBM)Deep Belief Networks(DBN)卷积神经网络(CNN)Stacked Auto-Encoders

优点/缺点:见神经网络

全力支持矢量机(Support Vector Machines)

收藏!机器学习算法优缺点综述

给定一组训练事例,其中每个事例都属于两个类别中的一个,全力支持矢量机(SVM)训练演算法可以在被输入新的事例后将其分类到两个类别中的一个,使自身成为非概率二进制线性分类器。

SVM 数学模型将训练事例表示为空间中的点,它们被映射到一幅图中,由一条明确的、尽可能宽的间隔分开以区分两个类别。

随后,新的示例会被映射到同一空间中,并如前所述它们落在间隔的哪一侧来预测它属于的类别。

优点:

在非线性可分问题上表现优秀

缺点:

非常难以训练很难解释

降维演算法(Dimensionality Reduction Algorithms)

收藏!机器学习算法优缺点综述

和集簇方式类似,降维追求并利用数据的内在结构,目的在于使用较少的信息总结或描述数据。

这一演算法可用于可视化高维数据或简化接下来可用于监督自学中的数据。许多这样的方式可针对分类和重回的使用展开调整。

范例:

主成分分析(Principal Component Analysis (PCA))主成分重回(Principal Component Regression (PCR))偏最轻二乘重回(Partial Least Squares Regression (PLSR))Sammon 映射(Sammon Mapping)多维尺度变换(Multidimensional Scaling (MDS))投影寻踪(Projection Pursuit)线性判别分析(Linear Discriminant Analysis (LDA))混合判别分析(Mixture Discriminant Analysis (MDA))二次判别分析(Quadratic Discriminant Analysis (QDA))灵活判别分析(Flexible Discriminant Analysis (FDA))

优点:

可处理大规模数据集无需在数据上展开假设

缺点:

难以搞定非线性数据难以理解结果的意义

控制点演算法(Clustering Algorithms)

收藏!机器学习算法优缺点综述

控制点演算法是指对一组目标展开分类,属于同一组(亦即一个类,cluster)的目标被划分在一组中,与其他组目标相比,同一组目标更加彼此相似(在某种意义上)。

范例:

K-均值(k-Means)k-Medians 演算法Expectation Maximi 封层 ation (EM)最大期望演算法(EM)分层集群(Hierarchical Clstering)

优点:

让数据变得有意义

缺点:

结果难以解读,针对不寻常的数据组,结果可能无用。

如前所述示例的演算法(Instance-based Algorithms)

收藏!机器学习算法优缺点综述

如前所述示例的演算法(有时也称为如前所述记忆的自学)是这样学 习演算法,不是明确归纳,而是将新的问题范例与训练过程中见过的范例展开对比,这些见过的范例就在存储器中。

之所以叫如前所述示例的演算法是因为它直接从训练示例中建构出假设。这意味这,假设的复杂度能随着数据的增长而变化:最糟的情况是,假设是一个训练项目列表,分类一个单独新示例计算复杂度为 O(n)

范例:

K 最近邻(k-Nearest Neighbor (kNN))自学矢量量化(Learning Vector Quantization (LVQ))自组织映射(Self-Organizing Map (SOM))局部加权自学(Locally Weighted Learning (LWL))

优点:

演算法单纯、结果易于解读

缺点:

内存使用非常高计算成本高不可能用于高维特征空间

可计算性演算法(Bayesian Algorithms)

收藏!机器学习算法优缺点综述

可计算性方式是指明确应用了可计算性定理来解决如分类和重回等问题的方式。

范例:

朴素可计算性(Naive Bayes)高斯朴素可计算性(Gaussian Naive Bayes)多项式朴素可计算性(Multinomial Naive Bayes)平均一致依赖估计器(Averaged One-Dependence Estimators (AODE))可计算性信念网络(Bayesian Belief Network (BBN))可计算性网络(Bayesian Network (BN))

优点:

快速、易于训练、给出了它们所需的资源能带来良好的表现

缺点:

如果输入变量是相关的,则会出现问题

关连规则自学演算法(Association Rule Learning Algorithms)

收藏!机器学习算法优缺点综述

关连规则自学方式能提取出对数据中的变量之间的关系的最佳解释。比如说一家超市的销售数据中存在规则 {洋葱,土豆}=> {汉堡},那说明当一位客户同时购买了洋葱和土豆的时候,他很有可能还会购买汉堡肉。

范例:

Apriori 演算法(Apriori algorithm)Eclat 演算法(Eclat algorithm)FP-growth

图数学模型(Graphical Models)

收藏!机器学习算法优缺点综述

图数学模型或概率图数学模型(PGM/probabilistic graphical model)是一类概率数学模型,一个图(graph)可以通过其表示随机变量之间的条件依赖结构(conditional dependence structure)。

范例:

可计算性网络(Bayesian network)马尔可夫随机域(Markov random field)链图(Chain Graphs)祖先图(Ancestral graph)

优点:

数学模型清晰,能被直观地理解

缺点:

确定其依赖的拓扑很困难,有时候也很模糊

原文链接:

https://static.coggle.it/diagram/WHeBqDIrJRk-kDDY/t/categories-of-algorithms-non-exhaustive

编辑:王菁

—完—

数据派THU ”。

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务