当你看到“统计数据自然科学”这个词时，会想到甚么？你可能会觉得它是语言学、机器自学、广度自学和“21 世纪最火辣的组织工作”等关键字的女团，或是你的脑海中里会显露出一个统计数据自然生物学家的形象，她坐在笔记本电脑旁，将 AB 试验得到的结论堆叠在一起，又或是你听很多人说过干T5800有赚不完的钱（根据权威机构统计：紧凑型统计数据自然生物学家的平均周薪约人民币 744253 元）。不论是哪一种，它都是妩媚、精明和复杂的。从责任编辑作者 Vicki Boykis 十年前进入这一领域年来，统计数据自然科学一直给人这种的第一印象，但现在，统计数据自然科学早已无须是原本的样子了。附注由 AI 第一线校对，书名来自 Vicki Boykis 发表于个人网志的该文《Data science is different now》。

我最初是一名统计数据策略师。

我是否曾经提及过我有多痛恨 Excel 预设的位数数组文件格式？——Vicki Boykis（@vboykis）2012 年 5 月 18 日

我经常是默默地苦等 SQL 的运行结论、整理空荡荡的 Excel 文件，默默地看着 Hacker News 上相关海量统计数据发掘的该文、Facebook 统计数据自然科学项目组的新闻和Google执行官经济学家 Hal Varian 写的该文，然后默默地做着Cubzac。

2012 年，我很幸运被分配到了一个统计数据发掘工程建设项目组，他们正在将一些 ETL 工作台从 Oracle 北迁到 Hadoop 上，以期满足不断增长的统计数据客运量要求。

是不是“给疯子用的 Hadoop”？给阿宝用的 Hadoop 并不适宜我。——Vicki Boykis（@vboykis）2012 年 8 月 16 日

我强迫正式成为第一个采用 Pig 和 Hive 的策略师，主要是因为我不想要到工程建设组织工作完成后才能出访我的统计数据。而且，我沉迷统计数据自然生物学家的光芒——这些人开展很棒的实验，提出很棒的分析设想，并可以采用 MacBook。

我也想正式成为这种的人！所以，我新浪网自学了 Python，重访了我在大学自学过的语言学。在晚期，并没有真正公理化的方法来自学“统计数据自然科学”，最多只能看看他们在做甚么、去参加家庭聚会或是打声从老龄招工的职务叙述中念出点甚么。

自 2012 年年来，统计数据自然科学行业发展极为迅速。它几乎历经了Outarville炒周期的每个期。

我们早已历经了晚期采用期、相关人工智能和偏见的负面新闻、Facebook 等公司的第二轮和第三轮风险投资，现在正处于高采用增长期：银行、医疗保健公司和其他财富 100 强企业（这些公司早已落后市场五年）也在为机器自学招工统计数据自然生物学家。

很多东西都变了。大统计数据（记得 Hadoop 和 Pig 吗？）早已出局了，R 语言的采用率急剧上升，Python 正式成为分析师的宠儿，而云计算再次改变了一切。

然而，媒体针对统计数据自然科学领域的炒却没有变，一直在鼓吹统计数据自然生物学家是“21 世纪最火辣的职业”。但我现在认为这是一个很严重的问题，需要引起社区的注意。希望进入这个行业的初级统计数据自然生物学家供过于求，而一旦他们获得了梦寐以求的“统计数据自然生物学家”头衔，他们能够得到的东西与他们的期望其实是不匹配的。

新统计数据自然生物学家的供过于求

首先，我们来谈谈初级统计数据自然生物学家的供过于求。针对统计数据自然科学的持续媒体炒导致过去五年中市场上的初级人才数量激增。

这纯粹是道听途说的东西，所以不要太当真。但是，基于我自己作为简历筛选者、统计数据自然生物学家导师、面试官、面试者，以及与从事类似职业的朋友和同事的对话，我有一种直觉，每个给定的统计数据自然科学职务（特别是紧凑型的自然科学职务）的候选人数量从 20 个增加到 100 个或更多。我最近了解到，我的一位朋友在招工一个职务时收到了不止 500 份简历。

这都很正常，类似的情况还有很多。机器自学教父吴恩达的 AI 创业公司每周要求组织工作 70 到 80 个小时，但仍然收到了大量申请，甚至有人愿意免费做志愿者。在写这篇该文时，他们的办公室早已容不下更多的人。

要评估市场需求与供应之间的真正差距是非常非常困难的，不过我们可以从这里（

https://www.wired.com/story/andrew-ngs-new-online-school/）开始着手。对 4 月份招工广告的研究发现，美国有超过 10,000 个针对人工智能或机器自学的职务空缺。超过 10 万人参加了 Fast.ai（一家专注于推广人工智能的创业公司）的广度自学课程。

假设平均 MOOC 完成率约为 7％，那意味着有 7000 人可以填补这 10,000 个组织工作岗位。但是，今年是这种，那么明年呢？我们是否在假设统计数据自然科学创造的就业率是稳定的？如果实际情况不是这种的，那么统计数据自然科学就业市场有可能会萎缩。

LinkedIn 提供的统计数据表明，市场上有 151,717 个统计数据自然科学人才空缺。虽然目前还不清楚它们是不是就是指统计数据自然生物学家，或是是只拥有部分技能的人，但我们假设是前者。因此，我们可以说美国现在有 150,000 多个统计数据自然生物学家职务空缺。

我们假设有 100,000 个人早已参加了统计数据自然科学课程，并且其中有 7,000 个人会完成课程。

但是，上面这位数并没有考虑到其他的统计数据自然科学候选人计划和途径：Fast.ai 之外的 MOOC，比如 Coursera、Metis（超过 10 个全国性训练营）和 General Assembly（每 12 周就有 25 人参加）、来自加州大学洛杉矶分校等地的远程学位、分析和统计数据自然科学的本自然科学位、YouTube，等等。还有很多博士正在从学术界转向统计数据自然科学领域，但却无法在竞争极为激烈的就业市场中找到组织工作。

这篇该文指出，在 2015 年有 4 万个统计数据科学家职务空缺。总体而言，到 2018 年，分析技能的市场供应将超过市场容量。

参加统计数据自然科学计划的初级人才数量，再加上数百个开设统计数据自然科学课程的训练营，你将看到一场完美的风暴。

除了我从组织工作中了解到的以及与 100 多名同事进行的交谈之外，下面的两条推文让我确信目前存在真正的统计数据自然科学供应泡沫。

@Cal 的统计数据自然科学入门课程 Data 8 非常受欢迎。它位于有泽勒巴大剧院。2018 年秋季开学。pic.twitter.com/VBhtPnikmw——Mike Olson（@mikeolson），2018 年 10 月 4 日UVA（美国弗吉尼亚大学）很自豪地宣布开设统计数据自然科学学院的计划，它将满足社会对统计数据科学不断增长的需求。https://t.co/QlP4OUrTrO——UVA（@UVA）2019 年 1 月 18 日

由于学术界在跟上新趋势方面通常会滞后，因此，对于所有希望在统计数据自然科学领域找到职务的初级统计数据自然生物学家来说，这确实令人感到担忧。对于一个拥有统计数据自然科学新学位的人来说，要找到一个统计数据自然科学的职务是非常困难的，因为他们要在市场上与许多新人展开竞争。

但在三、四年前，情况并非如此。而现在，统计数据自然科学早已从流行语变成了连硅谷之外的公司都在招工的职务，职务的准入门槛更高了，而且偏爱具备统计数据自然科学经验的人，统计数据自然科学面试仍然很难通过。

正如很多该文指出的那样，你不一定会在第一次尝试时就能找到你梦寐以求的组织工作。市场可能非常残酷，并且对于大量初入者来说非常令人沮丧。

统计数据自然科学是一个具有误导性的岗位需求

第二个问题是，一旦这些初级人员进入市场，他们会对统计数据自然科学组织工作产生不切实际的期望。每个人都认为他们将从事与机器自学、深度自学和贝叶斯模拟相关的组织工作。

这不是他们的错，这就是统计数据自然科学课程和技术媒体所宣扬的。

但现实的情况却是，“统计数据自然科学”大多数时候是关于如何清理和整理统计数据以及将统计数据从一个地方移动到另一个地方。

我最近进行的一次非自然科学调查证实了这一点：

加。——Vicki Boykis（@vboykis）2019 年 1 月 28 日

还有很多行业专家发来的推文也是如此：

对于我最近的几个 ML 项目，复杂性并不在于建模或训练，而在于输入预处理。我发现在一个项目中耗尽了 CPU（而不是 GPU），我不确定如何进一步优化 Python（我正在考虑采用 C++）。——mat kelcey（@mat_kelcey）2019 年 2 月 11 日我看到初级 ML/CV 工程建设师对构建统计数据集完全缺乏兴趣。虽然这是一项无聊的组织工作，但我认为在整理统计数据集时需要学到很多东西，毕竟这占了问题的一大半。——Katherine Scott（@kscottz）2019 年 2 月 1 日角色和责任：- 自动化糟糕的商业行为- 根据需要编写临时 SQL经验要求：15 年采用 Python 进行广度自学的经验写过相关贝叶斯建模的博士论文7 种语言的 NLP 经验10 年从头开始创建 Hadoop 集群的经验——NickHeitzman（@NickDoesData）2019 年 2 月 12 日在过去两年中，项目的组织工作类别所占百分比：- 涉及 ML：15％- 涉及移动、监控和统计统计数据：85％——Vicki Boykis（@vboykis）2019 年 1 月 15 日

显而易见的是，在炒周期的后期期，统计数据自然科学逐渐向工程建设学靠近，统计数据自然生物学家需要的技能无须是基于可视化和语言学，而是更接近传统计算机自然科学课程所提供的那些：

像单元试验和持续集成这种的概念很快就正式成为统计数据自然生物学家和从事 ML 工程建设的数值自然生物学家的行话和常用的工具。

这导致了一些事情的发生。首先是“机器自学工程建设师”这个头衔的崛起，在过去的 3 到 4 年里，它带来了更多的声望和更高的收入潜力。

其次，它导致统计数据自然生物学家头衔含金量严重缩水。由于统计数据自然生物学家头衔的声望，像 Lyft 这种的公司会招工统计数据自然科学，但实际上他们只需要统计数据策略师的技能，导致“统计数据自然科学”职务对技能的要求发生了扭曲，究竟需要多少新进入者也变得不明确。

给新统计数据自然生物学家的建议

因此，本着继续为初学者提供建议的初衷，如果有人问我如何在 2019 年进入统计数据自然科学领域，我会给他们发送下面这种的电子邮件。

这是一个两步走的计划：

不要死盯着统计数据自然科学的组织工作岗位。为大多数统计数据自然生物学家相关的组织工作做好准备，但不要正式成为统计数据自然生物学家。调整你的技能女团。

这些话可能有点令人沮丧！但请允许我解释一下，希望它们不像听起来的那么悲观。

不要进入统计数据自然科学领域

因为每个初级职务一般有 50 个（有时 100 个，有时 200 个）人申请，所以不要与这些人去竞争。不要去攻读数学自然科学学位，不要参加训练营（我见过的大多数训练营的效果都不太好）。

不要做别人正在做的事情，因为这种无法让你脱颖而出。你正处在一个过度饱和的行业中，这种只会给自己增加难度。在我之前提及的那份PWC 报告中，统计数据自然科学职务的数量估计为 5 万，统计数据工程建设师职务的数量为 50 万，统计数据策略师职务的数量是 12.5 万。

通过“后门”进入统计数据自然科学领域要容易得多，也就是说从初级开发人员开始，可以是 DevOps 工程建设师、项目管理人员、统计数据策略师、信息管理员或类似的角色。这可能需要更长的时间，但在你努力完成统计数据自然科学组织工作的同时，你也将学会对职业生涯来说至关重要的 IT 技能。

了解当今统计数据自然科学所需的技能

以下是你在统计数据领域需要解决的一些问题：

1）创建 Python 包

2）将 R 语言用在生产环境中

3）优化 Spark 工作台，使其更有效地运行

4）对统计数据进行版本控制

5）让模型和统计数据可重现

6）对 SQL 进行版本控制

7）在统计数据湖中建立和维护干净的统计数据

8）大规模时间序列预测工具

9）共享 Jupyter Notebook

10）寻找可用于清理统计数据的系统

11）JSON

作为一名统计数据自然生物学家，优化模型、可视化和分析统计数据是职责组织工作的一部分，而统计数据科学主要是（也一直是）关于在一个地方获得用于插补的干净统计数据。

你应该如何为解决这些问题做好准备？如何为组织工作做好准备？你可以考虑自学下面这三种技能，它们都是基础技能，并彼此依赖，从简单到困难。

所有这些技能也是统计数据自然科学以外的软件开发的基础和关键，这意味着，如果你无法找到统计数据自然科学组织工作，可以快速转做软件开发或 DevOps。我认为这种灵活性与针对特定统计数据相关组织工作的培训同样重要。

1. 自学 SQL

首先，我建议每个人都要自学 SQL，无论他们的目标是正式成为统计数据工程建设师、ML 专家还是 AI 大师。

案。

SQL 非常强大且非常流行，甚至有些 NoSQL 和键值存储统计数据库也在重新实现它。比如 Presto 推出的 Presto 和 Athena、BigQuery、KSQL、Pandas、Spark，等等。如果你发现自己陷入了统计数据工具海洋之中，很可能可以找到一个适宜你的 SQL 工具。而且，一旦你理解了 SQL，你会发现它比其他查询语言更容易理解，从而开辟了一个全新的世界。

在熟悉了 SQL 之后，下一步是了解统计数据库的组织工作原理，这种你就可以学会如何优化查询。你不一定要正式成为统计数据库开发人员，但很多概念将延续到你的其他编程生活当中。

2. 学好一门编程语言和自学编程概念

SQL 不是一门编程语言吗？它是的

现代语言都是过程式的：Java、Python、Scala、R 语言、Go 语言，等等。

关于为统计数据自然科学应该选择哪种语言存在很多争论，我不会针对任何特定情况规定说要自学哪一种语言，只是在我的职业生涯中，Python 对我来说非常有用。作为一个初学者，它很容易入门，可以说是统计数据领域最流行的编程语言，并且可以用来完成很多不同的事情，从将模型嵌入 scikit 中，到出访 AWS API，再到构建 Web 应用程序、清理统计数据，以及创建广度自学模型。

当然，也有一些任务不太适宜用 Python 来完成：大型应用程序、打包依赖项和一些特定的与位数相关的任务，特别是时间序列和 R 语言提供的一系列功能。

如果你不选择 Python，也没问题。但你至少要选择一种语言，让你在统计数据自然科学领域之外保持灵活性。例如，如果你的第一份组织工作是统计数据策略师、QA 策略师、DevOps 初级工程建设师，或是其他职务，掌握一门语言都有助于你站稳脚跟。

在选择了一门编程语言并弄清楚如何采用它之后，就可以开始自学它背后的范式以及它与计算机自然科学生态系统的关系。

你是如何采用你的语言实现 OOP 的？OOP 是甚么东西？你如何优化你的代码？你的语言的依赖项是如何组织工作的？如何采用给定语言打包代码，如何进行版本控制、持续集成，如何部署模型工件？你的语言社区在哪里，会在哪里举行家庭聚会？

了解你的语言，了解它的优缺点，用你的语言开发一些有趣的东西。

然后，当你有足够的信心继续下去时，也只有在这个时候，才能开始自学你的第二门语言。它将把你带入更广泛的语言设计、算法和模式的世界。

3. 了解云端的组织工作

现在你早已知道如何编程，现在是时候将这些技能和理论带到云端了。

如今，云无处不在，你可能需要在下一个组织工作中采用云。如果有更多的机器自学范例转移到云端（如 SageMaker、Cloud AI 和 Azure 机器自学），早已有现成的模板可用来实现算法，而且企业的更多统计数据也开始存储在那里。

你可能会与行业领导者 AWS 合作，但越来越多的公司正在采用 Google Cloud，而很多早已与微软开展业务合作的保守企业在采用 Azure。我建议深入了解这三个云供应商，然后挑选一个你最感兴趣的。云设计范式都是类似的，你必须了解如何将服务粘合在一起，如何区分云端的服务器，以及如何采用 JSON。

有趣的是，这三家供应商现在都提供了他们的产品认证。我一般不会通过认证来衡量一个人对知识的掌握程度与否，但通过认证可以学到云的组织工作原理，这是工程建设的另一个组成部分：网络。

了解这三种产品，并在开始下一份组织工作之前在云端构建一些有趣的东西。

这里缺失的部分当然是“软技能”——知道在甚么时候构建甚么，知道如何在组织工作场所进行交流，知道他们想要甚么。软技能与技术技能一样重要，有很多专门讨论它的该文，但为了保持这篇该文不会太长，这里就不作累述了。