机器学习 Python 库 Top 20 - 网站源码_资源分享

(点选下方白字

校对：庞德公新浪网时评译者 – 刘唱

现如今开放源码是控制技术创新的核心理念，促进着控制技术的急速控制技术革新。责任编辑会为你如是说 2016 年电脑学习 Top 20 Python 开放源码工程项目，与此同时预测得出结论许多有意思的看法和行业发展趋势。

KDnuggets 为您增添 Github 上新一代的 Python 电脑学习开放源码工程项目前 20 名。讶异，去年许多十分活耀的工程项目慢慢停滞不前了，因而没能榜上有名，而 13 个新工程项目冲入了去年的 top 20（参照重大贡献 contributions 和递交数 commits）。

机器学习 Python 库 Top 20

2016 Top 20 Python 电脑学习开放源码工程项目

1. Scikit-learn 是两个单纯且高效率的数据挖掘和数据挖掘辅助工具，易上手，能在数个语句中生物降解。它如前所述NumPy, SciPy 和 matplotlib，开放源码，可民用（如前所述 BSD 许可证）

递交数: 21486, COBOL: 736, Github 镜像: Scikit-learn(http://github.com/scikit-learn/scikit-learn0

2. Tensorflow 起初由Google机器智能化科学科学研究组织机构中的Google神经系统项目组（Google Brain Team）的科学研究相关人员和技师合作开发。该系统设计的本意是为的是易于电脑学习科学研究，能更快更快地将科学科学研究蓝本转化成为制造工程项目。

递交数: 10466, 重大贡献者: 493, Github 镜像: Tensorflow(https://github.com/tensorflow/tensorflow)

3. Theano 允许高效率地定义、优化以及评估涉及多维数组的数学表达式. 递交数: 24108, COBOL: 263, Github 镜像: Theano(https://github.com/Theano/Theano)

4. Caffe 是两个如前所述表达式，速度和模块化原则创建的深度学习框架。它由伯克利视觉学习中心（BVLC, Berkeley Vision and Learning Center）和社区COBOL共同合作开发。递交数: 3801, COBOL: 215, Github 镜像: Caffe(https://github.com/BVLC/caffe)

5. Gensim 是两个免费的 Python 库，它包含可扩展的统计语义，预测纯文责任编辑档的语义结构，以及检索相似语义的文档等功能。

递交数: 2702, COBOL: 145, Github 镜像: Gensim(https://github.com/RaRe-Technologies/gensim)

6. Pylearn2是两个电脑学习库。它的大多数功能都是构建于Theano 之上的。这意味着你能利用数学表达式自己写 Pylearn2 插件（新模型，算法等等），Theano 会为你优化这些表达式使其更加稳定，你还能选择将其校对到后端（CPU 或 GPU）。

递交数: 7100, COBOL: 115, Github 镜像: Pylearn2(http://github.com/lisa-lab/pylearn2)

7. Statsmodels 是两个 Python 模块，能用来探索数据，估计统计模型，进行统计测试。对于不同类型的数据和模型估计，都有描述性统计，统计测试，绘图功能和结果统计的详细列表可用。

递交数: 8664, COBOL: 108, Github 镜像: Statsmodels(https://github.com/statsmodels/statsmodels/)

8. Shogun是两个电脑学习辅助工具箱，它提供了很多统一高效率的电脑学习方法。这个辅助工具箱允许数个数据表达，算法类和通用辅助工具无缝组合。

递交数: 15172 COBOL: 105, Github 镜像: Shogun(https://github.com/shogun-toolbox/shogun)

9. Chainer 是两个如前所述 Python 的独立的深度学习模型开放源码框架。Chainer 提供了灵活、直观且高性能的方法实现全方位的深度学习模型，包括循环神经网络 (recurrent neural networks) 和变分自编码器(variational autoencoders)这些新一代的模型。

递交数: 6298, COBOL: 84, Github 镜像: Chainer(https://github.com/pfnet/chainer)

10. NuPIC 是两个如前所述 HTM 算法 (Hierarchical Temporal Memory) 的开放源码工程项目。HTM 的一部分已经通过实践、测试和应用，另一部分仍在合作开发之中。

递交数: 6088, COBOL: 76, Github 镜像: NuPIC(http://github.com/numenta/nupic)

11. Neon 是 Nervana 公司两个如前所述 Python 的深度学习库。它易于使用且具有超高的性能。

递交数: 875, COBOL: 47, Github 镜像: Neon(https://github.com/NervanaSystems/neon)

12. Nilearn 是两个 Python 模块，用于在神经成像 (NeuroImaging) 数据上进行快速单纯的统计学习。它利用 scikit-learn Python 辅助工具箱来处理多变量统计信息，包括预测建模，分类，解码或连接预测.

递交数: 5254, COBOL: 46, Github 镜像: Nilearn(http://github.com/nilearn/nilearn)

13. Orange3 是两个与此同时适用于新手和数据专家的电脑学习和数据可视化开放源码软件，支持拥有大型辅助工具箱的交互式数据挖掘工作流程。

递交数: 6356, COBOL: 40, Github 镜像: Orange3(https://github.com/biolab/orange3)

14. Pymc 是两个Python 模块，它能实现贝叶斯统计模型和拟合算法，包括马尔科夫链蒙特卡罗（Markov chain Monte Carlo）算法。它十分灵活，具有可扩展性，适用于处理一系列大规模问题。

递交数: 2701, COBOL: 37, Github 镜像: Pymc(https://github.com/pymc-devs/pymc)

15. PyBrain 是两个模块化的 Python 电脑学习库。它致力于为电脑学习任务提供灵活易上手但功能强大的算法，和一系列用于测试和比较算法的预定义环境。

递交数: 984, COBOL: 31, Github 镜像: PyBrain(http://github.com/pybrain/pybrain)

16. Fuel 是两个数据管道框架（data pipeline framework），它为电脑学习模型提供所需的数据。Blocks 和 Pylearn2 这两个神经网络库都有计划使用 Fuel。

递交数: 1053, COBOL: 29, Github 镜像: Fuel(http://github.com/mila-udem/fuel)

17.PyMVPA 是两个 Python 包，旨在简化大型数据集的统计学习预测。它提供了两个可扩展的框架和两个用于分类，回归，特征选择，数据导入导出等算法的高级接口。

递交数: 9258, COBOL: 26, Github 镜像: PyMVPA(https://github.com/PyMVPA/PyMVPA)

18. Annoy (Approximate Nearest Neighbors Oh Yeah)是两个带有 Python 绑定的 C++ 库，用于在空间中找到和已知的查询点临近的点。它还能创建大型的如前所述文件的只读数据结构，并映射至内存，以便数个进程能共同使用相同的数据。

递交数: 365, Contributors: 24, Github 镜像: Annoy(https://github.com/spotify/annoy)

19. Deap 是两个控制技术创新的，仍在发展中的计算框架，用于快速构建蓝本和测试方法。它旨在使算法和数据结构更加清晰透明。它与并行机制（如多进程和 SCOOP 模块）完美协调。

递交数: 1854, COBOL: 21, Github 镜像: Deap(https://github.com/deap/deap)

20. Pattern 是一个 Python 的网络挖掘模块。它绑定了数据挖掘(Google + Twitter + Wikipedia API, 网络爬虫, HTML DOM 解析器)，自然语言处理 (词性标记, n-gram 搜索, 语义预测, WordNet)，电脑学习(向量空间模型, k-means 聚类, Naive Bayes + k-NN + SVM 分类器) 和网络预测(图核心理念性 graph centrality 和可视化)等辅助工具。

递交数: : 943, Contributors: 20 , Github 镜像: Pattern(http://github.com/clips/pattern)

在下面的图表中，能看到 PyMVPA 相较于其他工程项目拥有最高的重大贡献率（contribution rate）。令人吃惊的是，Scikit-learn 虽然拥有最多的COBOL，但是重大贡献率却很低。这种现象背后的原因可能是：PyMVPA 是新工程项目，正处于合作开发的早期阶段，新功能合作开发，漏洞修补和重构等都能引导更多的递交。而 Scikit-learn 属于比较旧且十分稳定的工程项目，改进和修复的空间更小。

机器学习 Python 库 Top 20

在比较与此同时榜上有名 2015 和 2016 Top 20 的工程项目时，能发现，Pattern，PyBrain 和 Pylearn2 没有新的COBOL（contributors）也没有新的重大贡献代码。与此同时，还能发现COBOL数和递交数之间有显著关联。COBOL数的增长可能会导致递交数的增长，我认为这是开放源码工程项目和社区的魔力——引领头脑风暴，激发更多创意，合作开发更快的软件辅助工具。

机器学习 Python 库 Top 20