没有数据科学家大数据就玩不转了
数据科学家被媒体誉为21世纪最性感的职业,是企业界身价不菲、一将难求的的超级明星,这吓跑了很多准备尝试大数据的企业,实际上没有数据科学家企业一样可以玩转大数据。
如今, 一谈到大数据, 一个普遍的说法就是人才的缺乏。 数据科学家成为了21世纪最性感的职业等等。 哈佛商业评论以及咨询公司麦肯锡的报告都这么说, 再加上数据科学家们自身也乐意被打上这样的标签。
然而, 这种说法, 也让很多准备考虑大数据战略的企业面对大数据的机会望而却步了。 那么, 如果缺少数据科学家, 企业的大数据就真得玩儿不转了吗? 其实也未必。
这里, 当然不是说数据科学家不重要。 相反, 数据科学家这个职业在大数据时代非常重要。 在企业中, 数据科学家的工作, 实际上是联系企业的IT技术和企业所在行业专业知识的纽带。 这样的知识交集上的人才, 本身确实匮乏, 而且, 即使大数据又再大的发展,同时具备这样的知识的人才也还是少数。 然而, 就像我们在计算机行业发展的早期, 不能说因为乔布斯, 盖茨这样的人才太少就制约了行业发展一样。 如今, 街边柯达店的小伙子都能用PS修人像, 而我们也不需要要求柯达店的小伙子具备编写图像处理软件能力。
大数据时代也是一样, Google, Twitter, Facebook那样的大公司, 可以负担得起那些高精尖的数据科学家, 而小企业, 也可以有自己的方式来更好地利用数据。 下面, 以电子商务的公司为例子, 结合数据科学家的工作, 来看看如何能够在企业现有能力范围内进行数据方面的工作。
数据科学家的工作, 大致分为三个方面:
第一, 数据架构的搭建, 第二, 数据模型的建立, 第三, 数据分析。
下面我们来看看那些雇不起或找不着数据科学家的屌丝企业如何玩转大数据:
数据架构的搭建:
首先, 确定企业对数据的需求点。 对绝大部分商业企业来说, 其实每个业务经理都可以告诉你, 他们所需要的数据就是用户行为的数据, 比如, 用户购买行为, 用户对促销或者广告的反应, 用户的社交信息等等, 基本上, 每一类这样的信息, 都可以比较容易的进行归类。
这里的关键, 就是尽量把需要的数据范围进行限定, 这样就可以设定一些简单的数据输入模板, 从而把数据采集和数据整理问题简单化。 这里可以采用一些开源工具, 如Hadoop, Hbase, Hive, Pig等, 把各类数据进行整合。 2/8 原则一般是适用的, 也就是, 80%的进行运营支撑的需求可以来自于20%的数据。 对企业来说, IT技术人员和业务专家共同的协作, 加上一部分外部咨询的帮助, 应该可以搭建一个可用的架构。
数据模型的建立
数据科学家的另一部分工作就是数据模型的建立。 这些模型可能是描述型的模型, 也可能是预测性的模型。 这部分的工作, 也是数据科学家经常被神化的部分。 其实, 这部分工作, 比如说推荐系统, 用户个性化系统等等。 数据科学家所做的大量工作, 在于提取数据的“特征”, 选择合适的模型, 并把它们输入模型, 等待模型输出结果, 再验证, 调整特征的循环。 这部分的工作, 需要第一, 熟悉各类统计模型或者机器学习模型的建立。 第二, 也是更重要的一点, 就是行业知识的了解。 比如一个推荐系统, 最重要的就是把提取用户特征, 提取商品的特征。 如果建模的人对行业知识不了解的话, 那么模型就会很庞大和复杂, 也未必精确。 在这里, 行业的专家, 尽管对建模未必很精通, 他们的市场感觉往往是选择合适特征值的关键。
因此, 对电商企业来说, 招几个学统计的员工(或者外包), 再配合企业内部的行业专家, 也可以建一些适合企业需要的基本模型。 也许没有Google或者Facebook那么地精确, 但是对绝大部分企业来说, 也够用了。 这也不失为是一条在找不到合适的数据科学家(事实上精通本行业又精通建模的人才本来也是凤毛麟角)的情况下的解决之道。
数据分析
数据分析的本质, 是把“数据”变成“信息”, 并从中发现对企业运营有价值的东西。 这其实和任何理科或者工科的“观察 — 归纳 —关联 — 分析 —验证”的研究方法从本质上是一致的。 从这个角度来讲, 行业的专业知识, 在数据分析的时候, 更加重要。
即使你把欧洲大型强子对撞机的数据给数据科学家, 他也发现不了“上帝粒子”。
国内的很多人都会津津乐道 美国百货公司Target通过数据分析给怀孕少女推送婴儿产品的例子,而很多数据分析师或者数据科学家在提到这样的例子的时候, 也在有意无意的进行误导。 其实, 如果没有对用户和产品方面的专业知识, 光靠数据分析或者数据模型, 是很难做到的。 而事实上, 任何机器生成的模型, 要想实用的话, 也都得需要人工在反馈路径上进行一定程度上的调整。
在数据分析领域, 已经有很多的分析工具。 然而, 现在的这些工具, 大多数也还是比较复杂。 需要类似数据科学家或者数据分析师这样的专门人员来使用。 由于企业精细化运营的程度普遍不高。 数据分析师或者是BI的分析师本来就稀缺, 更不要说精通行业专业领域知识同时具备数据分析工具使用能力的人才了。 一个解决的方式, 就是把常用的分析尽量模板化, 数据的整理尽量简化。 尽量采用Excel这样简单大众的分析工具。 归根结底, 企业进行数据分析的目的, 是为了经营服务的。 简单的工具, 在使用,分享和沟通方面都有优势。 这样的解决方案当然不算得完美, 但是, 如果能让具备丰富行业经验的专家以行业经验来弥补数据分析工具的不足, 对企业来说, 也算得上是一个在缺乏数据科学家情况下的可以从数据分析中获益的方式。
在大数据时代, 数据科学家的重要性当然是毋庸置疑的。 不过, 就像网站内容管理系统那样, 大型网站可以雇顶级工程师来自建系统。 小企业也可以利用WordPress这样的系统来满足自身的需求一样。
企业在这个人才匮乏的大数据时代, 利用已有的工具, 结合自身对行业的专业知识, 采取合适的策略, 同样也可以从数据和数据分析中获益。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13