我们无须更多的数据科学家只须降低大数据使用门槛-CDA数据分析师官网

我们无须更多的数据科学家只须降低大数据使用门槛

2016-03-24

我们无须更多的数据科学家只须降低大数据使用门槛

这个国家急缺数据科学家”，目前几乎所有关于大数据的文章都提出了这么一种观点。广受热议的McKinsey公司2011年度调查指出许多机构即缺少对大数据有深刻洞见和理解的人，也没有运用大数据来做出明智决断并执行的动力。

然而在这些讨论中有些东西似乎被忽视了，那就是如何打破瓶颈进而使得大数据能够直接为企业家们所用。我们曾经在软件工业中做到过这一点，我们能够再次做到。

为了达成这个目标，透彻理解数据科学家在大数据中所扮演的角色是很重要的。目前，大数据是一个熔炉，分发着数据结构以及类似Hadoop、NoSQL、Hive以及R这样的工具。在这个技术含量非常高的环境中，数据科学家的工作就像是系统与那些来自不同领域专家之间的门卫与调解人。

虽然有点难以概括，但基本上数据科学家发挥着三种作用：数据架构、机器学习以及数据分析。虽然这些职责很重要，但事实上不是每个公司都需要一个像Google或者Facebook有的那种高度专业的数据团队。关于创造符合目标产品以及剔除技术复杂性的解决方案可以使大数据为商家所用。

随便举个例子，想想发生在世纪之交的网络内容管理革命吧。网站成了一时的时尚，但是各领域专家们却遭遇了源源不断的麻烦，因此我们有了一个瓶颈。所有网站上新的内容都需要IT编辑去编排内容甚至硬编码。那最后又是怎么解决的呢？我们把网络内容管理系统中所需要的核心内容概括并提取出来，然后把它们做成不懂技术的人也会用的模式。

让我们以电子商务为背景，稍微深挖掘一下现今的数据科学家所扮演的角色吧。

用数据架构降低复杂性

缩小范围是降低复杂性的关键。几乎所有的电子商务业务都对获取用户行为感兴趣——预约、购买、线下交易以及社交数据，几乎以上每一项都有目录及客户档案。

对这些基本功能限制范围可以使我们创建标准数据录入的模板，使得数据获取及连通更为简单。我们也需要找到打包不同数据结构与工具（现今包括Hadoop、Hbase、Hive、Pig、Cassandra and Mahout）的有意义的方法。这些数据包必须要符合目标要求，归结起来就是80/20法则：80%的大数据使用方法（所有电商业务需要的全部），可以用20%的努力和技术实现。

巧用机器学习

在机器学习上我们当然需要数据科学家，对吗？好吧，如果你有非常个性化的需求的话，或许对吧。但大部分需要用到大数据的标准需求，比如推荐引擎及个性化系统，都可以被提取出来。举例来说，数据科学家工作的一大块内容是制作“特征”，这是在数据录入里面使得机器学习更有效率的一种东西。我们想一下，所有的数据科学家都要把数据塞进机器并启动它们，那事实就是机器需要人们帮它们指出正确看待世界的方式。

然而，在每一个领域基础上的特征创建都是可以被模板化的。例如每个商务网站都有购买流以及用户分割这些概念。如果各领域专家们可以直接把他们在各自领域的想法和理念直接编码到系统里呢，是不是就可以避开作为中间人及翻译的科学家们了呢？

借用数据分析工具

从数据中自动提取那些最有价值的信息从来都是不容易的。然而，有一些获取特定领域观点的办法可以使商家们更像一个数据科学家去行动。这似乎是最容易解决的一个问题，因为市面上已经有了各种领域的分析产品。

但这些产品目前对各领域专家们来说还是限制太多门槛太高。绝对还需要一个更加友好的界面。我们也需要将机器如何通过分析结果学习放入考虑的范畴。这是非常关键的一个反馈系统，商家们希望把修正放进这个系统中。这也是另一个可能提供模板化界面的地方。

就像我们在内容管理系统中学到的那样，这些方法不能够在任何时间解决任何问题。但将这些技术型解决方案运用在一系列更广泛的数据问题上将会减轻数据科学家们遭遇的瓶颈。当各行业专家能直接用机器学习系统工作时，我们可能就进入了一个能够相互学习的崭新的大数据时代。或许到那时候大数据能解决的问题才会多于它所引起的问题。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据机器学习特征 Hive Hadoop 数据架构数据分析 Hbase

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

我们无须更多的数据科学家只须降低大数据使用门槛

CDA考试动态

CDA报考指南

热门栏目

最新资讯

Youtube百万粉丝大佬：数据分析师职业发展路径 ...

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

我们无须更多的数据科学家 只须降低大数据使用门槛

CDA考试动态

CDA报考指南

热门栏目

最新资讯

Youtube百万粉丝大佬：数据分析师职业发展路径 ...

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

我们无须更多的数据科学家只须降低大数据使用门槛