什么是机器学习 - 网站源码_资源分享

责任编辑总共3015字，从业者提议写作5-10两分钟，非职业认识提议写作10-20两分钟

0.前言:

AlphaGo除役了，它赢了李世石，也击败了中国围棋天潢，标志着人工智慧演算法达到了捷伊高度，人工智慧、广度自学、机器自学等热门话题也上了大家的餐桌上，成了茶余饭后的茶余饭后。责任编辑将紧接著上一讲《比你更介绍你，详解用户肖像》，我们来谈谈机器自学那个热门话题，本讲以进阶如是说为主，技术如是说在后面的几讲展开。

1.甚么是机器自学:1.1自学的表述近代自学是社会学的两个名词。它有狭义和狭义之分。狭义的自学是外显和鸟类在日常生活操作过程中获得子代实战经验的操作过程，是鸟类和人类文明日常生活中的不可否认。如鸟类园里的象专业委员会吹长笛、猛禽和海豚专业委员会起脚、熊专业委员会圣迹谢恩等。狭义的自学指的是学生在学校里的自学。1.2维基对于机器自学的表述

机器自学有下面三种表述：

机器自学是两门人工智慧的科学，该领域的主要科学研究对象是人工智慧，特别是如何在实战经验自学中改善具体演算法的性能。

机器自学是对能透过实战经验手动改进的计算机演算法的科学研究。

机器自学是用统计数据或以往的实战经验，以此优化电脑程式的操控性标准。1.3机器自学的二律背反

统计数据、演算法、数学模型

机器自学科学研究的是从统计数据中透过挑选出合适的演算法，手动的概括方法论或规则，并根据那个概括的结果(数学模型)与新统计数据来进行预测。

1.4机器自学与人类文明自学操作过程

1.5举个红豆

其实很大程度上来说机器自学与人的自学有很多相异之处，那我们先举个范例来看看人是怎么自学的，来等效机器自学。

假定有一对恋人，你是主角(男友)，2个月前，朋友给你如是说了两个男友，他是家庭主妇。为了互相介绍，你们每星期末单厢一起接吻喝茶；已经接吻有8周了，每星期喝茶男友单厢比签订合同天数晚到10两分钟-30两分钟，所以你每次接吻也会比签订合同天数晚10-30两分钟，并且你总结了两个规律(假如接吻前发短信他说在公司，所以基本上都是晚到30两分钟左右，假如他说在家里，所以基本上翅茎到10两分钟)，不过男友后来身心俱疲的天数从10、30两分钟变成了15、45两分钟，你也自己调整了签订合同天数后到达的天数。

等效: 机器自学方法是计算机利用已有的统计数据(8次接吻的实战经验)，得出了某种数学模型(身心俱疲的规律)，并利用此数学模型预测未来(是否身心俱疲)的一种方法。

1.6总结人的自学有两个基本上方法，两个是演绎法，两个是概括法，这两种方法分别对应人工智慧中的两种系统：专家系统和机器自学系统。所谓演绎法，是从已知的规则和事实出发，推导捷伊规则、捷伊事实，这对应于专家系统。专家系统也是早期的人工智慧系统，它也称为规则系统，找一组某个领域的专家，如医学领域的专家，他们会将自己的知识或实战经验总结成某一条条规则、事实，例如某个人体温超过37度、流鼻涕、流眼泪，所以他就是感冒，这是一条规则。当这些专家将自己的知识、实战经验输入到系统中，那个系统便开始运行，每遇到一些新情况，会将之变为一条条事实。当将事实输入到专家系统时，专家会根据规则或事实进行推导、梳理，并得到最终结论，这便是专家系统。而概括法是从现有样本统计数据中不断地观察、概括、总结出规律和事实，对应机器自学系统或统计自学系统，侧重于统计自学，从大量的样本中统计、挖掘、发现潜在的规律和事实。1.7现在常说的机器学习、广度自学、人工智慧的关系

人工智慧的范围可以说很大、很泛，从表面上可以理解为机器的智能化，让机器像人一样能解决思考解决问题。其实人工智慧核心技术包括很多的方面：推理、知识、规划、自学、交流、感知、移动和操作物体的能力等。可以说机器自学和广度自学都是人工智慧那个大主题下的一部分吧，广度自学又可以归为机器自学的一部分。简而言之，机器自学和广度自学是人工智慧的两个关键的技能，看人工智慧的发展历史，人工智能三大科学研究内容：计算机模仿人类文明的思考，对环境的感知和动作的实现是人工智慧的三大科学研究内容。

即:人工智慧>机器自学>广度自学

2.机器自学的适用场景

适用: 明天下不下雨，所有这些可以基于采样统计数据来识别和解决的问题，都可以透过机器自学来处理

无法适用: 哪个彩票号码能中五百万，这些无规律的随机事件2.机器自学操作过程中的几个注意点2.1:从感知到认知，如眼睛)，认知强调理解2.2:从自学到决策自学: 对已有统计数据应用相关演算法进行规则/数学模型的计算概括；决策：遇到捷伊问题时，使用学到的知识进行自学2.3:演算法和统计数据哪个更重要统计数据秒杀一切演算法，但真正推动社会的进步的是演算法，而不是统计数据。统计数据就好像是工业革命时期的煤炭，非常重要，蒸汽机就像是演算法，最后大家记住的是瓦特发明了蒸汽机，而不是英国的煤矿。3.机器自学常见的概念:2.1监督自学:监督自学的统计数据比较特殊，举个红豆，比如你在中学自学英语，在老师的帮助下练习英语发音，统计数据是你的发音和那个发音的对错/准确程度(对错/准确程度是老师告诉你的)，然后演算法就是你去尝试去模拟统计数据(发音)的规律，不断根据英语单词的拼写规律来自学发音，最终你自学到了基于拼写及句子的上下文调整发音。2.2无监督自学:无监督自学的统计数据中没有人告诉你对错信息，举个红豆，今天老师给你了两个碗，里面有黑米有红米，让你对那个碗里的米分个类，你可能根据颜色分类，也可能根据大小、重要分类，都没有问题，因为老师没说按甚么分，对不对那个问题。2.3降维:降维是从更基本上的维度来看问题，举个红豆，<nike 空军一号>这双鞋，对其降维可以是nike那个运动品牌，也可以是运动鞋那个类目2.4泛化:

泛华就是你学到的规则/数学模型的普适程度。

举个红豆吧，今天老师让你看了20个西瓜，并告诉你熟不熟，然后给你两个西瓜，问你只看外观，那个西瓜熟不熟，你可能根据以下来判断:

可能你是这么做的：看表皮，你发现20个瓜里面，瓜皮表面光滑、花纹清晰、纹路明显、底面发黄的瓜都是熟的，但是不满足任何两个条件的都是不熟的。

所以你学到的数学模型如下:假如瓜皮表面光滑、花纹清晰、纹路明显、底面发黄的，就说明是熟瓜；其它的是不熟的瓜。

但是其实有时候，纹路不明显，但其他条件满足的时候也会有一部分是熟的瓜。所以你学到的数学模型具有一定泛化操控性，但不具有很高的泛化操控性。4.机器自学最难的是甚么:

假如你思考一遍上述流程，你可能发现一切都很容易，从统计数据清洗，特征提取，到数学模型选择，事实上这你就错了。因为机器自学最难的一部，这里根本就没提到，那就是把现实生产日常生活中的问题，提炼成两个机器自学问题。这需要的是你对问题本身的深刻洞察。有一天也许整个统计数据清洗到数学模型选择和交叉验证都手动化了。但始终有两个东西不能完全被机器搞定，那就是你如何从两个全捷伊领域，去提取机器学习可以有助解决的最重要的问题。再有，无论机器的预测多准确，它的结果假如不是在解答人的需求，也是两个没用的或至少不令人喜欢的东西。比如我发明两个演算法能够特别准的预测老人的寿命，或者根据女生现在的长相推测她80岁的长相，即使演算法十分牛掰，这样的产品估计也不是客户喜闻乐见的。

6.机器自学的应用举例

无疑，在2010年以前，机器自学的应用在某些特定领域发挥了巨大的作用，如车牌识别，网络攻击防范，手写字符识别等等。但是，从2010年以后，随着大统计数据概念的兴起，机器自学大量的应用都与大统计数据高度耦合，几乎可以认为大统计数据是机器自学应用的最佳场景。