
机器学习和 AI 领域必须了解的工具
关于数据科学,工具可能并不是那么热门的话题。人们似乎更关注最新的聊天机器人技术以及深度学习框架。
但这显然是不合理的。为什么不花些时间,挑选合适的工具呢?毕竟好的工具能够让你事半功倍。在本文中介绍了机器学习和 AI 方面的优质工具。
应该使用哪种语言?
这是一个有争议的问题。存在很多不同的观点。我个人的观点可能不那么常见,我认为越多越好。你应该同时使用 R 语言和 Python。
为什么?R语言更擅长数据可视化,并且有大量的统计数据包。另一方面,Python可以帮助你将模型部署生产,并更好地与团队中其他开发人员合作。
基本的软件包
我们应该充分利用的优秀开源社区。首先让我们回顾一下数据科学工作的主要流程。
典型的机器学习工作流程
最重要的步骤是:数据获取、数据清洗、可视化、建模、沟通。这些过程都需要用到库。
针对数据清洗,R语言中有一个出色的包——dplyr。无可否认,它的语法有些奇怪。注意 %>% 与* nix中的(|)运算符的工作原理相同,前一个操作的输出成为下一个操作的输入。这样,只需几行代码,你就可以构建相当复杂且可读的数据清洗操作。
另一方面,Python中可以用到Pandas。这个库很大程度上借鉴了R语言,特别是数据框的概念(当中行是观测,列是特征)。这需要一定的学习过程,但在习惯了之后,你可以在数据处理中做很多事情(甚至可以直接写入数据库)。
针对数据可视化,R语言中有ggplot2和plotly。ggplot2 非常强大,但级别较低。同样它的语法很奇怪,你需要通过图形语法来进行理解。plotly是一个较新的库,具有 ggplot 的功能,只需要一行代码就能进行交互。
Python中进行可视化的基础包是 matplotlib。但它的语法有些奇怪,默认颜色也不那么理想,因此我建议你使用新的seaborn软件包。Python缺少对模型性能的可视化,这里可以使用 yellowbrick 解决。你可以使用它来创建漂亮的图表分类器进行评估,查看特征,甚至绘制文本模型。
使用 seaborn 对 iris 数据集进行绘制
API
使用R语言进行机器学习常常会遇到一个问题。几乎所有模型都有不同的API,除非你记住所有的内容,如果你只想测试不同算法,那么就需要打开好几个文档标签。这个缺陷可以用 caret 和 mlr 解决,后者较新。我推荐用mlr,因为它更结构化,维护也更积极。而且功能强大,具有分解数据、训练、预测和性能评估功能。
Python中相应的库是scikit-learn。这也是我最喜欢的库,同时 scikit-learn 也备受一些科技公司的青睐 。它有一致的API,超过150种算法(包括神经网络),出色的文档,主动维护和教程。
Python中的ROC/AUC图,使用yellowbrick
集成开发环境
对于R语言来说,RStudio 是一个非常棒的工具,而且没有其他的竞争工具。我们希望在Python中找到相应的工具,我筛选了十几个(Spyder,PyCharm,Rodeo,spacemacs,Visual Studio,Canopy等等),主要推荐当中的两个工具:Jupyter Lab和Atom + Hydrogen。
Jupyter Lab很棒。但它仍然继承了Jupyter Notebook 中存在的一些缺点,比如单元状态,安全性,以及最严重的VCS集成问题。出于这个原因,我建议使用Atom + Hydrogen。你可以用它完成各种数据科学任务,比如检查数据框和变量,绘图等。
Atom + Hydrogen
EDA 工具
为什么需要?在数据科学过程中,尤其是起步阶段,我们需要快速地探索数据。在进行可视化之前,我们需要探索,并通过最少的技术投入来实现。因此写一大堆 seaborn、ggplot 代码并不是最佳选择,你需要使用 GUI 界面。因为不涉及任何代码,业务人员也可以使用。有两个非常棒的跨平台工具,并且免费——Past和Orange。前者更侧重于统计分析,后者更侧重于建模。两者都可以做很棒的数据可视化,因此完全符合我们的目标。
用Orange你能够进行的操作
结语
通过对工具进行优化,你能够更高效地完成数据分析工作(但也不要以此为借口不去工作哦)。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
DSGE 模型中的 Et:理性预期算子的内涵、作用与应用解析 动态随机一般均衡(Dynamic Stochastic General Equilibrium, DSGE)模 ...
2025-09-17Python 提取 TIF 中地名的完整指南 一、先明确:TIF 中的地名有哪两种存在形式? 在开始提取前,需先判断 TIF 文件的类型 —— ...
2025-09-17CDA 数据分析师:解锁表结构数据特征价值的专业核心 表结构数据(以 “行 - 列” 规范存储的结构化数据,如数据库表、Excel 表、 ...
2025-09-17Excel 导入数据含缺失值?详解 dropna 函数的功能与实战应用 在用 Python(如 pandas 库)处理 Excel 数据时,“缺失值” 是高频 ...
2025-09-16深入解析卡方检验与 t 检验:差异、适用场景与实践应用 在数据分析与统计学领域,假设检验是验证研究假设、判断数据差异是否 “ ...
2025-09-16CDA 数据分析师:掌控表格结构数据全功能周期的专业操盘手 表格结构数据(以 “行 - 列” 存储的结构化数据,如 Excel 表、数据 ...
2025-09-16MySQL 执行计划中 rows 数量的准确性解析:原理、影响因素与优化 在 MySQL SQL 调优中,EXPLAIN执行计划是核心工具,而其中的row ...
2025-09-15解析 Python 中 Response 对象的 text 与 content:区别、场景与实践指南 在 Python 进行 HTTP 网络请求开发时(如使用requests ...
2025-09-15CDA 数据分析师:激活表格结构数据价值的核心操盘手 表格结构数据(如 Excel 表格、数据库表)是企业最基础、最核心的数据形态 ...
2025-09-15Python HTTP 请求工具对比:urllib.request 与 requests 的核心差异与选择指南 在 Python 处理 HTTP 请求(如接口调用、数据爬取 ...
2025-09-12解决 pd.read_csv 读取长浮点数据的科学计数法问题 为帮助 Python 数据从业者解决pd.read_csv读取长浮点数据时的科学计数法问题 ...
2025-09-12CDA 数据分析师:业务数据分析步骤的落地者与价值优化者 业务数据分析是企业解决日常运营问题、提升执行效率的核心手段,其价值 ...
2025-09-12用 SQL 验证业务逻辑:从规则拆解到数据把关的实战指南 在业务系统落地过程中,“业务逻辑” 是连接 “需求设计” 与 “用户体验 ...
2025-09-11塔吉特百货孕妇营销案例:数据驱动下的精准零售革命与启示 在零售行业 “流量红利见顶” 的当下,精准营销成为企业突围的核心方 ...
2025-09-11CDA 数据分析师与战略 / 业务数据分析:概念辨析与协同价值 在数据驱动决策的体系中,“战略数据分析”“业务数据分析” 是企业 ...
2025-09-11Excel 数据聚类分析:从操作实践到业务价值挖掘 在数据分析场景中,聚类分析作为 “无监督分组” 的核心工具,能从杂乱数据中挖 ...
2025-09-10统计模型的核心目的:从数据解读到决策支撑的价值导向 统计模型作为数据分析的核心工具,并非简单的 “公式堆砌”,而是围绕特定 ...
2025-09-10CDA 数据分析师:商业数据分析实践的落地者与价值创造者 商业数据分析的价值,最终要在 “实践” 中体现 —— 脱离业务场景的分 ...
2025-09-10机器学习解决实际问题的核心关键:从业务到落地的全流程解析 在人工智能技术落地的浪潮中,机器学习作为核心工具,已广泛应用于 ...
2025-09-09SPSS 编码状态区域中 Unicode 的功能与价值解析 在 SPSS(Statistical Product and Service Solutions,统计产品与服务解决方案 ...
2025-09-09