数据科学、机器学习、人工智能，究竟有什么区别？

学雷锋网按：责任编辑为学雷锋制作组校对的技术网志，原副标题Whats the difference between data science, machine learning, and artificial intelligence，译者David Robinson。

译者 | 刘国兴杨恕权重新整理 | 凡江吴璇

当我向别人介绍我是统计数据自然生物学家时，我经常被问及“统计数据自然科学和机器学习有甚么差别”或是“这是否意味著你在从事人工智慧组织工作？”类似于难题我已经回答过很数次，标准答案能归纳成“三原则”：

那些应用领域确实有很多重叠，而且各别都有各别的讲法，选择哪两个看上去更像两个市场难题。但是她们不可交换：那个应用领域的大部分专业人士，对怎样把某一的组织工作分为统计数据自然科学、机器学习、人工智慧，都有自己的两套感性，尽管它极难用词汇叙述出来。

所以在这首诗中，我提出了两个关于相当精简的表述：

统计数据自然科学造成看法

机器学习作出预估

人工智慧缔造行为

需要明确的是，这并非两个充份的表述：并非所有合乎表述的都属于那个应用领域。（占卜师做重大决策，但我们总有一天不能说她们在做机器学习！）同样也，这也并非决定两个人的配角或是组织工作名衔的好方式（“我是两个统计数据自然生物学家吗

但我认为那个表述是一种有效的方式，它能来协助你差别这四种类别的组织工作，这样谈及起来时不能让人觉得天真。更为重要的是，我在探讨成为两个叙述主义而并非规范化主义的方式：我钟爱的是那个应用领域的人怎样使用那些名词而非名词本身。

统计数据自然科学造成看法

统计数据自然科学和其他两个应用领域有所差别，原因在于它的目标是如前所述人类：能够获得想像力和认知。Jeff Leek对统计数据自然科学能实现的洞悉类别有较好的表述，包括：叙述性（“一般顾客有70％的预览机会”），开拓性（“相同的销售人员有相同的预览率”）和两者之间（“两个乱数实验表明分配给Alice的顾客比分配给Bob的顾客更有可能预览）。

并非所有造成想像力的自然科学都是统计数据自然科学（统计数据自然科学的经典表述是统计学、软件工程和应用领域专业知识的组合）。但是我们能用那个表述来区分ML和AI。主要差别在于，统计数据自然科学中总有人工介入：有人正在认知、洞悉，看到数字，或是从结论中受益。 “我们的象棋游戏算法使用统计数据自然科学来决定下一步棋”或是“Google地图使用统计数据自然科学来推荐驾驶方向”是毫无意义的。

统计数据自然科学的表述因此强调：

统计推断

统计数据可视化

实验设计

应用领域知识

交流

统计数据自然生物学家可能会使用简单的工具：她们能报告百分比并根据SQL查询制作线图；也能使用非常复杂的方式：她们可能会使用分布式统计数据存储来分析数万亿条记录，开发尖端的统计技术并构建交互式可视化。无论她们使用甚么，目标都是为了更好地认知她们的统计数据。

机器学习作出预估

我认为机器学习是关于预估的应用领域：“给定具有某一特征的实例X，预估Y”。这些预估可能是关于未来的（“预估那个病人是否会得败血症”），但它们也可能是对于计算机不明显的特性（“预估那个图像否有鸟）”。几乎所有的是Kaggle比赛都能被认定为机器学习难题：她们提供一些训练统计数据，然后查看参赛者是否能对新例子作出准确的预估。

”）并作出预估（“那个用户有53 ％购买我们产品的可能性，所以我们应该向他推荐我们的产品“）。

像乱数森林这样的模型可解释性稍差，而且更适合“机器学习”的叙述，深度学习等方式是众所周知的难解释。如果你的目标是获得看法而并非作出预估，这可能会阻碍你。因此，我们能想象两个统计数据自然科学和机器学习的“谱”，其中可解释模型倾向于统计数据自然科学，更多“黑盒子”模型则倾向于机器学习这一边[source](https://xkcd.com/1838/)

大多数从业者能在这两个任务之间非常舒适地来回切换。我在组织工作中同时使用到机器学习和统计数据自然科学：我能通过机器学习的方式，在Stack Overflow的业务资料上匹配一个模型来判定哪些用户更有可能是在寻找一份组织工作，然后用统计数据自然科学来构筑结论和可视化结果来验证为甚么那个模型有效。这是非常重要的方式来发现你模型中的缺点以及解决算法偏见。这也是统计数据自然科学经常将机器学习发展为一个产品的原因。

人工智慧缔造行为

因为这也意味著一些本应该被称为人工智慧的组织工作却并并非按照这样进行叙述的，这也引起了我的强烈反对。一些学者也在抱怨人工智慧的作用：“人工智慧是我们现在还无法做到的”。所以甚么组织工作能让我们合理地叙述人工智慧？

两个表述“人工智慧”的通用思路是一种自发代理行为执行或是推荐行为行为 (e.g. Poole, Mackworth and Goebel 1998,Russell and Norvig 2003)。我认为也属于人工智慧的系统包括：

人机博弈算法 (Deep Blue,AlphaGo)

机器人学和控制理论 (运动规划, 两足机器人的步行行为)

优化选择 (谷歌地图路径选择)

自然词汇处理 (机器人2)

强化学习

此外，人工智慧与其他应用领域也有很多交叠。深度学习因为横跨机器学习和人工智慧两个应用领域，所以特别有趣。典型应用例子就是训练统计数据然后作出预估，这已经在人人机博弈算法中表现出巨大的成功，比如Alphago（与更早之前的人机博弈系统，如深蓝相比，Alphago更聚焦于探索和优化未知的解决方案空间）。

但这之间也有差别。如果我分析一些销售统计数据，会发现来自某一行业的顾客比其他更多 (提取出一些调查结果), 输出结果是一些数字和图表，并非某一行为。(管理者可能会根据那些结论改变销售策略，但那个行为并非自发性的) 这意味著我会将我的组织工作叙述为统计数据自然科学: 如果将提高销售额的方式归结于人工智慧将会是很尴尬的讲法。

请不要将经受过算法训练的人都写作具有人工智慧能力的人

——Dave Gershgorn ✔@davegershgorn 3:17 AM – Sep 19, 2017

人工智慧与机器学习的差异更加微妙，从发展历史来说，机器学习通常被认为人工智慧的两个子应用领域 (计算机视觉尤其是两个经典人工智慧难题)。但我认为机器学习应用领域已经与人工智慧有较大割离，一定程度上是由于上面所提及的冲击：大多数研究预估难题的人都不喜欢把自己叙述成人工智能研究人员。 (很多重要的机器学习所取得的突破来自于统计数据分析，而那些统计数据在AI应用领域的其他应用领域很少出现。) 这意味著，如果你能把两个难题叙述为“从Y中预估X”，我建议你完全避免使用“人工智慧”那个词。

案例研究：怎样将这三者一起使用

假设我们正在开发一辆自动驾驶汽车，并且正在研究将车停靠在停车标志处的某一难题。我们需要从这三个应用领域中获得的技能。

机器学习: 汽车必须使用它的摄像头识别停车标志。我们构造两个包含数百万街边对象的照片统计数据集，然后训练两个算法来判断那些照片中有停车标注。

人工智慧：一旦我们的汽车识别出停车标志，它就需要决定甚么时候采取刹车动作。太早或太晚应用它们是危险的，我们需要它来处理相同的路况 (例如，需要识别一条光滑道路，并不足以较快地将速度降下来识到它的速度不够快), 这就是控制理论范畴。

数学自然科学：在街头测试中我们发现车的性能并并非足够好，通过停车标志来驱动停车还是会有一些疏漏。在分析街边测试统计数据后，我们再次洞悉到漏判率与每天的时间有关：在日出之前或日落之后更容易出现漏判停车标志。我们意识到我们大多数训练统计数据仅都是大白天下的停车标志，所以我们构建了两个更好的统计数据集，包括夜间图片然后在返回去进行机器学习步骤。

通常将人工智慧与能够在相同的应用领域执行任务的通用人工智慧或是超过人类智力的超人工智慧混为一谈并没有任何协助。这对任何被叙述为“人工智慧”的系统都有不切实际的期望。

此处我提

网志原址：

http://varianceexplained.org/r/ds-ml-ai/

学雷锋网相关文章：

Must Know！统计数据自然生物学家们必须知道的5种聚类算法

怎样成为一名统计数据自然生物学家？Yann LeCun 的建议也许能给你标准答案

onefansub）为好友

备注「我要加入」，To be an AI Volunteer ！