机器学习是什么?这一次终于讲明白了…

2023-05-26 0 836

机器学习是什么?这一次终于讲明白了…

译者:Daniel Faggella

校对 | CDA数据策略师

What is Machine Learning?

在Google搜寻中输出“甚么是电脑自学?”关上了一个潘朵拉的高峰论坛,学术自然科学研究和这里说的 – 责任编辑的目地是精简电脑自学的表述和认知,这要归因于她们的电脑自学自然科学研究组成员。

除电脑自学(ML)的知悉,组织工作表述以外,她们还意在概要简述电脑自学的基本概念,让电脑“思索”的考验和不足之处,和今天深入细致化解的许多问题自学(电脑自学的“最前沿”),和合作开发电脑自学插件的关键性关键性点。

她们将这个天然资源放到一起,以协助您化解相关电脑自学的任何虚荣心 – 所以慢速到您钟爱的部分,或是随便读出来,从上面的电脑自学表述开始:

甚么是电脑自学?

“电脑自学是让计算机系统像人类文明一样自学和暴力行动的自然科学,通过以检视和现实生活世界交互的形式向她们数据资料和重要信息,以独立自主的方式明显改善她们的自学。”

前述表述包涵了电脑自学的平庸最终目标或终极最终目标,正像该应用领域的许多自然科学研究相关人员所抒发的那般。责任编辑的目地是为具备商业性洞察力的听众提供相关怎样表述电脑自学或其组织工作基本原理的研究者看法。 电脑自学和人工智慧在许多人的脑子里具备完全相同的表述,但听众也应该认识到许多明显的差别。本文结尾包涵评注和相关自然科学研究相关人员的专访,以期进一步发掘。

机器学习是什么?这一次终于讲明白了…

她们怎样抵达她们的表述:

(她们的聚合电脑自学表述可以在责任编辑开头找到)

与任何概念一样,电脑自学的表述可能略有不同,具体取决于您的要求。她们梳理互联网,从信誉良好的天然资源中找到五个实用的表述:

“最基本的电脑自学是使用算法解析数据,从中自学,然后对世界上某事做出决定或预测的做法。” – Nvidia “电脑自学是让计算机系统在没有明确编程的情况下采取暴力行动的自然科学。” – 斯坦福“电脑自学基于可以从数据中自学而不依赖于基于规则的编程的算法。” – 麦肯锡公司“电脑自学算法可以通过推广实例来弄清楚怎样执行重要任务。” – 华盛顿大学“电脑自学应用领域意在回答这样一个问题:”她们怎样建立能够根据经验自动改进的计算机系统系统,和管理所有自学过程的基本法则是甚么?“ – 卡内基梅隆大学

她们将这些表述发送给她们采访过和/或包涵在她们之前的自然科学研究共识中的研究者,并要求她们

蒙特利尔大学Yoshua Bengio博士:

ML不应由否定表述(因此裁定2和3)。这是我的表述:

电脑自学自然科学研究是人工智慧自然科学研究的一部分,意在通过数据,检视和与世界的交互为计算机系统提供知识。获得的知识允许计算机系统正确地推广到新设置。

Danko Nikolic博士,CSC和Max-Planck自然科学研究所:

(编辑上面的数字2):“电脑自学是让计算机系统在没有明确编程的情况下采取暴力行动的自然科学,而是让她们自己自学许多技巧。”

路易斯维尔大学Roman Yampolskiy博士:

电脑自学是让计算机系统自学和人类文明做得更好或更好的自然科学。

华盛顿大学Emily Fox博士:

我最喜欢的表述是5

电脑自学基本概念

有许多不同类型的电脑自学算法,每天发布数百种,并且它们通常按自学风格(即监督自学,无监督自学,半监督自学)或通过形式或功能相似性(即分类,回归,决策树,聚类,深度自学等)。无论自学风格或功能怎样,电脑自学算法的所有组合都包涵以下内容:

表示(一组分类器或计算机系统认知的语言)评估(又名客观/评分功能)优化(搜寻方法;通常是评分最高的分类器;使用现成的和自表述的优化方法)
机器学习是什么?这一次终于讲明白了…

电脑自学算法的基本最终目标是 概括超出训练样本,即成功解释之前从未“见过”的数据。

电脑自学模型的可视化表示

到目前为止,概念和关键性点只能用于认知。当人们问“甚么是电脑自学?

决策树模型:

机器学习是什么?这一次终于讲明白了…

高斯混合模型:

机器学习是什么?这一次终于讲明白了…

神经网络:

机器学习是什么?这一次终于讲明白了…

使用卷积神经网络合并色度和亮度:

机器学习是什么?这一次终于讲明白了…

她们怎样让电脑去自学?

有许多不同的方法让电脑自学,从使用基本决策树到聚类到人工神经网络层(后者已经让位于深度自学),取决于你要完成的任务和类型和您可用的数据量。这种动态在各种应用中发挥作用,如医疗诊断或自动驾驶汽车。

虽然重点通常放到选择最佳自学算法上,但自然科学研究相关人员发现,许多最有趣的问题都源于可用的电脑自学算法。大多数情况下,这是训练数据的问题,但在新域中使用电脑自学时也会出现这种情况。

在处理实际插件时所做的自然科学研究通常会推动该应用领域的进展,原因有两个:1。发现现有方法的界限和不足之处的趋势2.自然科学研究相关人员和合作开发相关人员与应用领域研究者合作,利用时间和专业知识来提高系统性能。

有时这也是由“意外”发生的。她们可能会考虑模型集合或许多自学算法的组合来提高准确性,这是一个例子。竞争2009 Netflix Price的团队发现,当她们将自学者与其他团队的自学者结合起来时,她们取得了最好的成绩,从而改进了推荐算法(请阅读Netflix的博客,了解她们最终未使用此合奏的原因)。

在业务和其他应用领域的应用方面,一个重要的看法(基于对该应用领域研究者的专访和对话)是电脑自学不仅仅是,甚至是自动化,这是一个经常被误解的概念。如果你这样想,你一定会错过机器可以提供的宝贵见解和由此产生的机会(重新思索整个商业性模式,例如制造业和农业等行业)。

自学的电脑对人类文明有用,因为它们具备所有处理能力,能够更快地突出显示或找到人类文明可能错过的大(或其他)数据中的模式。机器自学是一种工具,可用于增强人类文明化解问题的能力,并从广泛的问题中做出明智的推断,从协助诊断疾病到提出全球气候变化的化解方案。

考验与局限

“电脑自学无法从无到有……它的作用是从更少的东西中获得更多。” – 华盛顿大学Pedro Domingo博士

电脑自学中两个最大的,历史性的(和持续的)问题涉及过度拟合(其中模型表现出对训练数据的偏见,并且不会推广到新数据,和/或变化,即在训练新数据时自学随机事物)和维度(具备更多特征的算法在更高/更多维度上组织工作,使得认知数据更加困难)。在某些情况下,访问足够大的数据集也是主要问题。

机器学习是什么?这一次终于讲明白了…

电脑自学初学者中最常见的错误之一是成功地测试训练数据并具备成功的假象; Domingo(和其他人)强调在测试模型时保持许多数据集是分开的重要性,并且仅使用该保留数据来测试所选模型,然后自学整个数据集。

当自学算法(即自学者)不起作用时,通常更快的成功之路是为电脑提供更多数据,其可用性现已成为近期电脑和深度自学算法进步的主要驱动因素。年份; 然而,这可能导致可扩展性问题,她们有更多的数据,但有时间了解数据仍然是一个问题。

就目地而言,电脑自学本身并不是目地或化解方案。此外,尝试将其用作一揽子化解方案即“BLANK”并不是一项有用的练习; 相反,带着问题或最终目标来到桌面通常最好由一个更具体的问题驱动 – “BLANK”。

深度自学与神经网络的现代发展

深度自学涉及电脑算法的自然科学研究和设计,用于在多个抽象级别(安排计算机系统系统的方式)自学数据的良好表示。最近通过DeepMind,Facebook和其他机构进行深度自学的宣传突显了它作为电脑自学的“下一个最前沿”。

该电脑自学国际会议(ICML)被广泛认为是世界上最重要的项目之一。今年6月在纽约市举行,汇集了来自世界各地的自然科学研究相关人员,她们致力于化解当前深度自学中的考验:

小数据集中的无监督自学基于模拟的自学和对现实生活世界的可转移性

深度自学系统在过去十年中在诸如对象检测和识别,文本到语音,重要信息检索等应用领域取得了巨大的进步。自然科学研究现在专注于合作开发 数据高效的电脑自学,即深度自学系统,可以在更少的时间和更少的数据中以更高的效率自学,在个性化医疗保健,电脑人强化自学,情感分析等最前沿应用领域,其他。

应用电脑自学的关键性关键性点

阐明怎样使用ML,和怎样避免公司和自然科学研究相关人员在启动ML相关项目时可能容易受到的许多常见陷阱。

可以说,在成功的电脑自学项目中最重要的因素是功能用来描述数据(这是特定于域),并具备足够的数据来训练你的模型摆在首位 大多数情况下,当算法表现不佳时,这是由于训练数据存在问题(即数据量不足/数据偏差;数据噪声较大;或是描述数据的功能不足以做出决策 “简单并不意味着准确性” – 根据多明戈的说法,模型的参数数量和过度倾向之间没有给定的联系 如果可能的话,应该获得实验数据(而不是她们无法控制的检视数据)(例如,从发送电子邮件的不同变体到随机观众抽样的数据) 无论她们是否标记数据因果关系或相关性,更重要的是预测她们行为的影响 始终留出一部分训练数据集进行交叉验证; 您希望您选择的分类器或自学算法在新数据上表现良好
机器学习是什么?这一次终于讲明白了…

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务