R语言企业级数据挖掘应用-CDA数据分析师官网

R语言企业级数据挖掘应用

2016-04-07

在互联网企业，在分析端使用闭源的商用软件几乎是不可能的，原因很简单：成本太高，不管是使用，还是研发及维护。但我个人觉得这可能还不是最主要的原因，对于互联网企业来说，数据虽然获取更容易，但环境更为复杂。开源软件可以根据业务的变化进行调整，但商业的闭源软件则很难做到。

R能不能处理大数据

好多人问过我这个问题，我会说你有多大内存就能处理多大数据，这话显然不负责任。这个问题确实不太好回答，因为每个人心中的大数据是不一样的。比如有人觉得几百万就是大数据，有些人觉得没个几亿就不算大数据，甚至有人说你处理不了的就是大数据（擦！？）。这些还只是从记录数（数据存储）的角度来看的，我们换个角度想想：建模工程师要做的事情无非是将用户和产品进行合理匹配，那最细粒度就是用户维（或产品维）。试问你有超过千万的用户数据分析建模么？对于一般的分析（工程）师来说，常见的情况还是几十万甚或百万级别。这个量级对于R来说就很容易了，比如我刚刚的工作就是在自己的PC上载入了一个50000000×3的数据框。

接着我们在说说速度，曾经有太多的人抱怨R的运行速度太慢，甚至堂而皇之的公开表明观点。但我发现大部分人是因为不熟悉R语言的编程，而是直接套用C或Java的编程方式，因而导致无法快速得到结果。举两个例子：

有次在微博上一位朋友抱怨说R做了一个几千乘几千的相关矩阵花了他1天时间，我当时就愕然了，然后默默地给了一个几秒钟搞定的脚本。

还有一次更具有代表性：我的项目组有个R的项目需要上线，于是直接把原始代码交予了一位项目成员，嘱咐他稍作改动即可上线。但他发现需要3个小时才能将线上的数据计算完毕，于是又找到我帮忙优化。我看了一下，果不其然，Java风格的R代码，向量化编程的思想一点都没有用。改之，3分钟结束计算。

R语言的向量化运算几乎可以和底层语言的速度一较高下，并且向量化是天然的并行化方式，如果条件允许，R的向量化编程可以很方便的转化为并行框架，这也就是为什么说R + Hadoop是大数据的发展方向的理由之一。

再说个例子：试问100万行，20万列的数据是大数据么（你没看错，是200000维）？恩，R能够处理，而且可以在这类数据上构建模型。

再看看大数据的流动

对于管理者来说，合适的人出现合适的岗位是衡量管理者是否合格的重要标准之一。对于数据分析人员，合适的工具匹配合适的数据则是是否胜任工作的基本素质之一。R并不是通吃所有的数据场景，它只是在出现在该出现的分析建模环节。

R的位置在哪里？先让我们看看所谓的大数据是如何从企业中传递的：

36大数据

从最底层的原始数据来看，PB级数据确实不是R所擅长，但这些数据有Hadoop或者其他高性能存储和处理系统；

向上是针对于不同业务场景的数据集市，经过清洗后，数据的规模则下降到了TB级；

再向上则是针对于特定任务的分析和挖掘模块，数据已经被整理到了GB级，这时候R的处理则是非常方便

R分析的结果则是MB级的输出，比如图表、得分，或者是规则。比如规则很容易在数据集市这段做并行化计算

我的团队在大量使用R作为分析建模工具，看似比较另类，但其实Google、Facebook、Linkedin等公司已经有大量的直接使用R做分析挖掘的应用，只是大家不太留意罢了。

一句话总结：R并不是在象牙塔里供科研人员玩耍的玩具，而是实实在在工业界使用的便捷环境。

当然，这里还有很多问题没有展开，比如：

R语言的数据挖掘应该在并行化环境完成还是在单台机器的计算环境完成？

抽样可否解决大数据挖掘问题？

生产中直接实施R环境是否可行？

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据 R语言数据挖掘数据集市 Hadoop 数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

R语言企业级数据挖掘应用

R能不能处理大数据

再看看大数据的流动

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...