机器学习和 AI 领域必须了解的工具-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读机器学习和 AI 领域必须了解的工具

机器学习和 AI 领域必须了解的工具

2017-12-15

机器学习和 AI 领域必须了解的工具

关于数据科学，工具可能并不是那么热门的话题。人们似乎更关注最新的聊天机器人技术以及深度学习框架。

但这显然是不合理的。为什么不花些时间，挑选合适的工具呢？毕竟好的工具能够让你事半功倍。在本文中介绍了机器学习和 AI 方面的优质工具。

应该使用哪种语言？

这是一个有争议的问题。存在很多不同的观点。我个人的观点可能不那么常见，我认为越多越好。你应该同时使用 R 语言和 Python。

为什么？R语言更擅长数据可视化，并且有大量的统计数据包。另一方面，Python可以帮助你将模型部署生产，并更好地与团队中其他开发人员合作。

基本的软件包

我们应该充分利用的优秀开源社区。首先让我们回顾一下数据科学工作的主要流程。

典型的机器学习工作流程

最重要的步骤是：数据获取、数据清洗、可视化、建模、沟通。这些过程都需要用到库。

数据清洗

针对数据清洗，R语言中有一个出色的包——dplyr。无可否认，它的语法有些奇怪。注意％>％与* nix中的（|）运算符的工作原理相同，前一个操作的输出成为下一个操作的输入。这样，只需几行代码，你就可以构建相当复杂且可读的数据清洗操作。

另一方面，Python中可以用到Pandas。这个库很大程度上借鉴了R语言，特别是数据框的概念（当中行是观测，列是特征）。这需要一定的学习过程，但在习惯了之后，你可以在数据处理中做很多事情（甚至可以直接写入数据库）。

数据可视化

针对数据可视化，R语言中有ggplot2和plotly。ggplot2 非常强大，但级别较低。同样它的语法很奇怪，你需要通过图形语法来进行理解。plotly是一个较新的库，具有 ggplot 的功能，只需要一行代码就能进行交互。

Python中进行可视化的基础包是 matplotlib。但它的语法有些奇怪，默认颜色也不那么理想，因此我建议你使用新的seaborn软件包。Python缺少对模型性能的可视化，这里可以使用 yellowbrick 解决。你可以使用它来创建漂亮的图表分类器进行评估，查看特征，甚至绘制文本模型。

使用 seaborn 对 iris 数据集进行绘制

API

使用R语言进行机器学习常常会遇到一个问题。几乎所有模型都有不同的API，除非你记住所有的内容，如果你只想测试不同算法，那么就需要打开好几个文档标签。这个缺陷可以用 caret 和 mlr 解决，后者较新。我推荐用mlr，因为它更结构化，维护也更积极。而且功能强大，具有分解数据、训练、预测和性能评估功能。

Python中相应的库是scikit-learn。这也是我最喜欢的库，同时 scikit-learn 也备受一些科技公司的青睐。它有一致的API，超过150种算法（包括神经网络），出色的文档，主动维护和教程。

Python中的ROC/AUC图，使用yellowbrick

集成开发环境

对于R语言来说，RStudio 是一个非常棒的工具，而且没有其他的竞争工具。我们希望在Python中找到相应的工具，我筛选了十几个(Spyder，PyCharm，Rodeo，spacemacs，Visual Studio，Canopy等等)，主要推荐当中的两个工具：Jupyter Lab和Atom + Hydrogen。

Jupyter Lab很棒。但它仍然继承了Jupyter Notebook 中存在的一些缺点，比如单元状态，安全性，以及最严重的VCS集成问题。出于这个原因，我建议使用Atom + Hydrogen。你可以用它完成各种数据科学任务，比如检查数据框和变量，绘图等。

Atom + Hydrogen

EDA 工具

为什么需要？在数据科学过程中，尤其是起步阶段，我们需要快速地探索数据。在进行可视化之前，我们需要探索，并通过最少的技术投入来实现。因此写一大堆 seaborn、ggplot 代码并不是最佳选择，你需要使用 GUI 界面。因为不涉及任何代码，业务人员也可以使用。有两个非常棒的跨平台工具，并且免费——Past和Orange。前者更侧重于统计分析，后者更侧重于建模。两者都可以做很棒的数据可视化，因此完全符合我们的目标。