新闻稿:责任编辑为 CSDN 译者,需经容许,明令禁止转发。
译者者 | Terence Shin译者者 | Carol 白眉林 | Carol公司出品 | CSDN(ID:CSDNnews)
在往后的一两年里,我根据自己的组织工作实战经验,与其他统计数据自然生物学家的沟通交流,包括在网路上阅读到的内容,编订了自认为最重要的机器自学演算法。
今年,我想在去年撰文的基础上提供更多各式各样类型丘帕卡更多的数学模型。期望提供更多一个辅助工具和技术的瑰宝,你能将其作为记事本,这样就能化解各式各样统计数据自然科学的难题了。
说到这里,让他们深入细致了解以下五种最重要的机器自学演算法类型。
说明型演算法
商业模式发掘演算法
软件系统演算法
控制点演算法
时间字符串演算法
相近度演算法
说明型演算法
机器自学遭遇的两大难题是认知各式各样数学模型如何达到最终预估,他们经常晓得是“什么”,但极难说明“为什么”。
说明型演算法帮助他们识别那些对他们感兴趣的结果有重要影响的变量。这些演算法使他们能够认知数学模型中变量之间的关系,而不仅仅是用数学模型来对结果进行预估。
有几种演算法能用来更好地认知某个数学模型的自变量和因变量之间的关系。
演算法
线性/逻辑回归:对因变量和一个或多个自变量之间的线性关系进行建模的一种统计方法——可用于了解基于t-检验和系数的变量之间的关系。
决策树:一种机器自学演算法,为决策及其可能的后果创建一个树状数学模型,有助于通过观察分支进行分割的规则进而认知变量之间的关系。
主成分分析(PCA):一种降维技术,将统计数据投射到一个较低的维度空间,同时保留尽可能多的差异。PCA可用于简化统计数据或确定重要特征。
局部可说明数学模型——不可知论说明(LIME):一种说明机器自学数学模型预估的演算法,使用线性回归或决策树等技术构建一个更简单的数学模型,通过预估周围情况局部近似地说明数学模型。
沙普利加法说明(SHAPLEY):一种说明机器自学数学模型的预估演算法,通过基于“边际贡献”的方法计算每个特征对预估的贡献。在某些情况下,它比SHAP更准确。
沙普利近似法(SHAP):一种通过预估每个特征在预估中的重要性来说明机器自学数学模型预估的方法。SHAP使用一种叫做“合作博弈”的方法来近似Shapley值(Shapley value),通常比SHAPLEY更快。
商业模式发掘演算法
商业模式发掘演算法是一种统计数据发掘技术,用于识别统计数据集中的商业模式和关系。这些演算法可用于实现各式各样目的,如识别零售业中的客户购买商业模式,了解网站/应用程序的常见用户行为字符串,或在自然科学研究中寻找不同变量之间的关系。
商业模式发掘演算法通常通过分析大型统计数据集和寻找重复商业模式或变量之间的关联展开组织工作。一旦这些商业模式被识别出来,它们就能用来预估未来的趋势或结果,或者认知统计数据中的潜在关系。
演算法
Apriori演算法:一种用于在事务统计数据库中查找频繁项集的演算法——高效且广泛用于关联规则发掘任务。
性。
使用等价类的字符串商业模式发现(SPADE):一种通过将某种意义上等价的项目组合在一起,从而查找字符串统计数据中经常出现的商业模式的方法。这种方法能够高效处理大型统计数据集,但可能不适用于稀疏统计数据。
前缀投影的商业模式发掘(PrefixSpan):一种通过构建前缀树并修剪不常见项目的方式查找字符串统计数据中常见商业模式的演算法。PrefixScan能够高效处理大型统计数据集,但可能不适用于稀疏统计数据。
软件系统演算法
作为机器自学技术,软件系统演算法结合多数学模型,从而做出比任何单独数学模型更准确的预估。软件系统演算法能够胜过传统机器自学演算法的原因有几个:多样性。通过结合多数学模型预估,软件系统演算法能捕捉到统计数据中更广泛的商业模式。
稳健性。软件系统演算法通常对统计数据中的噪音和异常值不那么敏感,这能使预估更加稳定和可靠。
减少过度拟合。通过对多数学模型的平均化预估,软件系统演算法能减少单个数学模型对训练统计数据的过度拟合,从而提升对新统计数据的软件系统。
提高准确性。软件系统演算法已被证明在各式各样情况下都保持相较于传统机器自学演算法的优势。
演算法
随机森林:一种机器学习演算法,它构建了一个决策树的集合,并根据树的多数“投票”进行预估。
极限梯度提升演算法(XGBoost):一种梯度提升演算法,使用决策树作为其基础数学模型,被称为最强的机器自学预估演算法之一。
LightGBM:另一种梯度提升演算法,旨在比其他提升演算法更快、更高效。
CatBoost:一种梯度提升演算法,专门被设计处理分类变量。
控制点演算法
控制点演算法是一种无监督的自学作业,用于将统计数据分为“群组”。与目标变量已知的监督式自学相比,控制点演算法中没有目标变量。
这项技术对于寻找统计数据中的自然商业模式和趋势非常有用,并且经常在统计数据分析阶段使用,以获得对统计数据的进一步认知。此外,控制点演算法能用来根据各式各样变量将统计数据集划分为不同的部分,一个常见应用是在细分客户或用户的时候。
演算法
K-Modes控制点:一种专门为分类统计数据设计的控制点演算法,能够很好地处理高维分类统计数据,而且实现起来相对简单。
DBSCAN密度控制点:一种基于密度的控制点演算法,能够识别任意形状的控制点。它对噪声处理相对稳健,能够识别统计数据中的异常值。
谱系控制点法:一种控制点演算法,使用相近性矩阵的特征向量来将统计数据点归入控制点,能够处理非线性可分离的统计数据,并且相对高效。
时间字符串演算法
时间字符串演算法是用于分析与时间有关的统计数据的技术。这些演算法考虑到一个系列中的统计数据点之间的时间依赖性,这在对未来价值进行预估时特别重要。
时间字符串演算法被用于各式各样商业应用中,如预估产品需求、销售,或分析客户在一段时间内的行为,它们还能用来检测统计数据中的异常情况或趋势变化。
演算法
Prophet时间字符串数学模型:一个由Facebook开发的时间字符串预估演算法,设计直观、易于使用。它的一些主要优势包括处理缺失统计数据和预估趋势变化,对异常值具有鲁棒性,能快速拟合。
自回归综合移动平均法(ARIMA):一种用于预估时间字符串统计数据的统计方法,对统计数据和其滞后值之间的相关性进行建模。ARIMA能处理广泛的时间字符串统计数据,但比其他的一些方法更难实现。
指数平滑法:一种预估时间字符串统计数据的方法,使用往后统计数据的加权平均来进行预估。指数平滑法的实现相对简单,能用于广泛的统计数据,但可能不如更复杂的方法表现出色。
相近度演算法
相近度演算法被用来衡量一对记录、节点、统计数据点或文本之间的相近性。这些演算法能基于两个统计数据点之间的距离(如欧氏距离)或文本的相近性(如Levenshtein演算法)。
这些演算法有广泛应用,特别在推荐方面特别有用。它们能用来识别类似的项目或向用户推荐相关内容。
演算法
欧氏距离:对欧氏空间中两点之间直线距离的测量。欧氏距离计算简单,在机器自学中被广泛使用,但在统计数据分布不均匀的情况下可能不是最佳选择。
余弦相近度:基于两个向量之间的角度来衡量它们的相近度。
Levenshtein演算法:一种测量两个字符串之间距离的演算法,基于将一个字符串转化为另一个字符串所需的最小单字符编辑数(插入、删除或替换)。Levenshtein演算法通常用于拼写检查和字符串匹配的任务中。
Jaro-Winkler演算法:一种测量两个字符串之间相近度的演算法,基于匹配字符的数量和转置的数量。它与Levenshtein演算法类似,经常被用于记录镜像和实体解析的任务中。
奇异值分解(SVD):一种矩阵分解方法,将一个矩阵分解为三个矩阵的乘积,在最先进的推荐系统中,奇异值分解是重要的组成部分。






