京公网安备 11010802034615号
经营许可证编号:京B2-20210330
机器学习和 AI 领域必须了解的工具
关于数据科学,工具可能并不是那么热门的话题。人们似乎更关注最新的聊天机器人技术以及深度学习框架。
但这显然是不合理的。为什么不花些时间,挑选合适的工具呢?毕竟好的工具能够让你事半功倍。在本文中介绍了机器学习和 AI 方面的优质工具。
应该使用哪种语言?
这是一个有争议的问题。存在很多不同的观点。我个人的观点可能不那么常见,我认为越多越好。你应该同时使用 R 语言和 Python。
为什么?R语言更擅长数据可视化,并且有大量的统计数据包。另一方面,Python可以帮助你将模型部署生产,并更好地与团队中其他开发人员合作。
基本的软件包
我们应该充分利用的优秀开源社区。首先让我们回顾一下数据科学工作的主要流程。
典型的机器学习工作流程
最重要的步骤是:数据获取、数据清洗、可视化、建模、沟通。这些过程都需要用到库。
针对数据清洗,R语言中有一个出色的包——dplyr。无可否认,它的语法有些奇怪。注意 %>% 与* nix中的(|)运算符的工作原理相同,前一个操作的输出成为下一个操作的输入。这样,只需几行代码,你就可以构建相当复杂且可读的数据清洗操作。
另一方面,Python中可以用到Pandas。这个库很大程度上借鉴了R语言,特别是数据框的概念(当中行是观测,列是特征)。这需要一定的学习过程,但在习惯了之后,你可以在数据处理中做很多事情(甚至可以直接写入数据库)。
针对数据可视化,R语言中有ggplot2和plotly。ggplot2 非常强大,但级别较低。同样它的语法很奇怪,你需要通过图形语法来进行理解。plotly是一个较新的库,具有 ggplot 的功能,只需要一行代码就能进行交互。
Python中进行可视化的基础包是 matplotlib。但它的语法有些奇怪,默认颜色也不那么理想,因此我建议你使用新的seaborn软件包。Python缺少对模型性能的可视化,这里可以使用 yellowbrick 解决。你可以使用它来创建漂亮的图表分类器进行评估,查看特征,甚至绘制文本模型。
使用 seaborn 对 iris 数据集进行绘制
API
使用R语言进行机器学习常常会遇到一个问题。几乎所有模型都有不同的API,除非你记住所有的内容,如果你只想测试不同算法,那么就需要打开好几个文档标签。这个缺陷可以用 caret 和 mlr 解决,后者较新。我推荐用mlr,因为它更结构化,维护也更积极。而且功能强大,具有分解数据、训练、预测和性能评估功能。
Python中相应的库是scikit-learn。这也是我最喜欢的库,同时 scikit-learn 也备受一些科技公司的青睐 。它有一致的API,超过150种算法(包括神经网络),出色的文档,主动维护和教程。
Python中的ROC/AUC图,使用yellowbrick
集成开发环境
对于R语言来说,RStudio 是一个非常棒的工具,而且没有其他的竞争工具。我们希望在Python中找到相应的工具,我筛选了十几个(Spyder,PyCharm,Rodeo,spacemacs,Visual Studio,Canopy等等),主要推荐当中的两个工具:Jupyter Lab和Atom + Hydrogen。
Jupyter Lab很棒。但它仍然继承了Jupyter Notebook 中存在的一些缺点,比如单元状态,安全性,以及最严重的VCS集成问题。出于这个原因,我建议使用Atom + Hydrogen。你可以用它完成各种数据科学任务,比如检查数据框和变量,绘图等。
Atom + Hydrogen
EDA 工具
为什么需要?在数据科学过程中,尤其是起步阶段,我们需要快速地探索数据。在进行可视化之前,我们需要探索,并通过最少的技术投入来实现。因此写一大堆 seaborn、ggplot 代码并不是最佳选择,你需要使用 GUI 界面。因为不涉及任何代码,业务人员也可以使用。有两个非常棒的跨平台工具,并且免费——Past和Orange。前者更侧重于统计分析,后者更侧重于建模。两者都可以做很棒的数据可视化,因此完全符合我们的目标。
用Orange你能够进行的操作
结语
通过对工具进行优化,你能够更高效地完成数据分析工作(但也不要以此为借口不去工作哦)。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
CDA中国官网是全国统一的数据分析师认证报名网站,由认证考试委员会与持证人会员、企业会员以及行业知名第三方机构共同合作,致 ...
2025-12-26在数字化转型浪潮下,审计行业正经历从“传统手工审计”向“大数据智能审计”的深刻变革。教育部发布的《大数据与审计专业教学标 ...
2025-12-26统计学作为数学的重要分支,是连接数据与决策的桥梁。随着数据规模的爆炸式增长和复杂问题的涌现,传统统计方法已难以应对高维、 ...
2025-12-26数字化浪潮席卷全球,数据已成为企业核心生产要素,“用数据说话、用数据决策”成为企业生存与发展的核心逻辑。在这一背景下,CD ...
2025-12-26箱线图(Box Plot)作为数据分布可视化的核心工具,凭借简洁的结构直观呈现数据的中位数、四分位数、异常值等关键信息,广泛应用 ...
2025-12-25在数据驱动决策的时代,基于历史数据进行精准预测已成为企业核心需求——无论是预测未来销售额、客户流失概率,还是产品需求趋势 ...
2025-12-25在数据驱动业务的实践中,CDA(Certified Data Analyst)数据分析师的核心工作,本质上是通过“指标”这一数据语言,解读业务现 ...
2025-12-25在金融行业的数字化转型进程中,SQL作为数据处理与分析的核心工具,贯穿于零售银行、证券交易、保险理赔、支付结算等全业务链条 ...
2025-12-24在数据分析领域,假设检验是验证“数据差异是否显著”的核心工具,而独立样本t检验与卡方检验则是其中最常用的两种方法。很多初 ...
2025-12-24在企业数字化转型的深水区,数据已成为核心生产要素,而“让数据可用、好用”则是挖掘数据价值的前提。对CDA(Certified Data An ...
2025-12-24数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-12-23在Power BI数据可视化分析中,矩阵是多维度数据汇总的核心工具,而“动态计算平均值”则是矩阵分析的高频需求——无论是按类别计 ...
2025-12-23在SQL数据分析场景中,“日期转期间”是高频核心需求——无论是按日、周、月、季度还是年度统计数据,都需要将原始的日期/时间字 ...
2025-12-23在数据驱动决策的浪潮中,CDA(Certified Data Analyst)数据分析师的核心价值,早已超越“整理数据、输出报表”的基础层面,转 ...
2025-12-23在使用Excel数据透视表进行数据分析时,我们常需要在透视表旁添加备注列,用于标注数据背景、异常说明、业务解读等关键信息。但 ...
2025-12-22在MySQL数据库的性能优化体系中,索引是提升查询效率的“核心武器”——一个合理的索引能将百万级数据的查询耗时从秒级压缩至毫 ...
2025-12-22在数据量爆炸式增长的数字化时代,企业数据呈现“来源杂、格式多、价值不均”的特点,不少CDA(Certified Data Analyst)数据分 ...
2025-12-22在企业数据化运营体系中,同比、环比分析是洞察业务趋势、评估运营效果的核心手段。同比(与上年同期对比)可消除季节性波动影响 ...
2025-12-19在数字化时代,用户已成为企业竞争的核心资产,而“理解用户”则是激活这一资产的关键。用户行为分析系统(User Behavior Analys ...
2025-12-19在数字化转型的深水区,企业对数据价值的挖掘不再局限于零散的分析项目,而是转向“体系化运营”——数据治理体系作为保障数据全 ...
2025-12-19