小团队如何玩转大数据
大数据之所以能称得上一个时代,来自于整个社会的集体狂欢。数据源于各行各业,这场变革带来的机遇自然蕴藏于各行各业之中。紧盯这个市场等待机遇的,无所谓IT巨头或是初创企业,无所谓团队规模是大是小。
大数据能为企业带来什么?更多的订单,更低的成本,更快捷的管理,更新的业务模式。巧妙善用互联网上的大数据, 小型创业团队就可以为自己快速积攒早期创业所需的资源,从而降低创业成本,提高收益率。然而我们却看到,在每轮技术变革中中小企业都是被最后照顾到的。在这场新变革的席卷下,我们不禁又要问小团队,你的大数据在哪里?
诚然,缺技术、缺人才、缺数据等种种现实,都将小团队置身于水深火热之中。那么大数据时代的小团队还有机会吗?
“当然有。”前小米数据工场负责人、现任火线数据创始人兼CEO、 WOT2016 讲师卢学裕在接受51CTO.com记者独家专访时,不仅给出明确的肯定答案,也结合他曾在优酷视频系统及小米数据工场的亲身实践,细细剖析面对种种问题下的小团队该如何做好技术选型,及如何权衡面临的大数据成用成本和数据隐私担忧。
小团队的大数据挑战
近几年,以Hadoop生态为代表的数据基础设施发展很快,给大数据技术的易用性提供了很大改善,也使技术门槛降低很多。
在卢学裕看来,小团队在大数据方面的挑战主要表现为人才短缺和数据来源。卢学裕讲到,为了应对这两个问题,小团队必须要在业务上下功夫,依据核心的业务形态,深入挖掘自身数据。
具体应该怎么做呢?卢学裕以视频用户数据举例。虽然用户在观看视频的过程中,没有太多的互动过程,但还是可以挖掘出价值非常大的高频数据。基于用户的拖拽、回看这样同一份数据,我们可以做到的可以有很多:
- 挖掘到不同用户对视频内容的High点,帮助视频的内容运营和内容创作找到用户兴趣点;
- 认识用户行为,找到相似用户,基于内容兴趣进行用户画像;
- 根据用户对内容上的喜好更好地进行CDN的预分发
- 根据用户行为做视频推荐
- ……
某种意义上说,视频推荐比商品推荐更容易。视频作为用户相对高频的行为,意味着我们能抓取到用户更多的行为数据,对用户的喜好反映更全面;从应用场景的角度来说,用户对于商品是否购买可能是一个很大的决定,而看不看视频相对决定很小,决定错误的损失也很小。在进行视频内容分析时,由于视频文本挖掘的维度偏少,因此进行文本分析的价值不大。
因此,同一技术在不同的业务领域上的重视程度,和起到的作用是不一样的。小团队由于自身技术能力和专业人才资源都有限,一定要更加细致地了解自己的业务形态,最大程度利用已有数据。
小米数据工场大数据平台架构
小米目前除了发展自己的公司,还投资了很多生态链企业。随着业务的快速增长,业务产生的数据量突飞猛涨。大家都知道,数据越集中,利用价值越大,由此小米数据工场应运而生。
小米数据工场主要承担着为全公司各团队及小米的生态链企业,提供数据采集、计算、存储等基础能力,以及机器学习、挖掘的工具和方法的任务。除了底层的能力,数据工场也为公司及生态链企业提供一些具体的基础数据服务,用于小米信用卡的风控和额度评估、广告精准投放、限时抢购时用数据打击黄牛等等。通过数据工场提供的数据能力,企业不仅能够对业务进行数据分析,也实实在在将数据应用到核心业务场景中。
围绕Hadoop生态构建基础平台
小米数据工场主要的工作是管理数据、元数据、数据权限,以及管理大量的计算。卢学裕强调,把数据存下来不是目的,而是要通过计算运用到各个业务领域中。小米及其生态链的业务场景丰富,因此整个计算体系是纷繁复杂的。
为了更好适应未来的需求,小米数据工场围绕Hadoop生态构建底层基础平台。虑到扩展性,数据工场天生基于Scala设计成分布式架构。由于小米及其生态链企业业务场景丰富,因此在技术选型方面全生态都会涉及,如消息流、批处理、实时计算等技术都需要用到,HBase、Hive、Spark、Storm 、Impala都在不同的场景下使用。
利用Docker解决异构和资源问题
为了管理好这些纷繁的计算框架和模型,在计算的执行方面,小米使用Docker来解决对环境的不同需求和异构问题,并且与Hive、Impala、Spark这些不同的计算模型都进行了对接,去适配不同应用场景计算不同数据的模型。另外,在不同业务场景下,同一个计算逻辑也可以选用不同的计算模型,Docker 的使用也避免了资源的浪费。比如一个计算任务每天凌晨运行,为了追求吞吐量,可以放到Hive里跑;还是同样一个计算模型,现在就要跑,可以不用更改,就放到Impala里运行。
总结看来,Docker不仅解决了环境的异构,也解决了资源问题。另外,Docker的环境适应性很强,做横向扩展会比较容易。
对于数据隐私方面,小米考虑得非常重。采用Docker与自身安全策略的综合,小米用户数据的隐私和安全性也得到了极其严格的控制。
小团队的大数据敏捷之路
选择热门的技术
小公司的时间耽误不起。选择热门的、常用的、经过大公司验证的技术,一是少踩坑,二是常用的技术人才相对好找。
按需使用,不要规划得太大
传统BI进行数据分析时通常会建立一个大而全的模型,再根据业务需求进行调整。但小团队的业务发展很快,因此在初期不要规划得太大,而是根据业务需要,细分业务场景,在每个小场景里构建小的数据模型,分析用户就建用户模型,分析产品用简单的产品模型。
另外,小团队要考虑到自己的应用场景是以分析型为主,还是应用型为主,之后再进行相关的技术选型,如Hive、Impala 、Presto等;而如果是以业务型为主,就要具体结合自身业务和技术能力综合来看。在数据量不是非常大的情况下,没必要选择HBase这样集群的存储方案,有许多产品可以替代。比如MySQL这类传统数据库能支持的数据规模也不小。根据计算要求和数据规模综合来选,不是超高量的不需要选太大规模的技术选型。
选择便捷、灵活和易于管理的技术
大公司在技术和系统使用上首先考虑的是集群的利用率和吞吐量,而小公司则要从便捷、灵活和易于管理的维度来考虑。
存储方面:建议使用以HDFS为主的存储,因为很多计算的工具所使用的存储都建立在它之上。对于业务未来的迅速发展,有比较好的兼容性;
计算方面:建议在选用常用的基础设施之外,具体计算用户交互时使用易于使用的技术:
HUE:基于web,在进行Hive 查询时可以直接在平台上完成,使用门槛更低;
Presto:适应数据源多,可以连接各种各样的数据源做计算和数据分析。由于业务数据和用户的行为数据时分开的。使用Presto这种连接器型的分析工具时,有分析能力的人就可以直接使用这种工具,我们不需要将不同的数据还要ETL导入到一起,后续还要做加工处理,只需要在物理打通就可以。
重视数据积累
小团队在前期积累数据时,一定要多花点儿功夫,不要偷懒,把数据尽可能采集全、采集准。千万不要等用到什么数据才去找数据,一旦发现你需要的数据之前没积累;或是积累的是错的;或是没有对数据进行标识,没办法区分这是哪个用户,陷入逻辑孤岛,都会非常麻烦。
比如我们需要采集用户在看一篇文章时的数据。这时我们应该将采集的维度考虑得更多,至少从用户本身的维度、文章内容、上下文关系、用互交互事件这四个维度上考虑。采集的数据可能包括文章分类、标题、内容ID、当前该文章热度、用户获取文章的渠道等等。这会让我们更全面地了解用户的喜好,也将用户的路径分析的很清楚。
哪怕未来不知道怎么用,采集更多更全的数据一定会对应用产生价值。在存储成本较低的现状下,多采集数据带来的代价并不大。真正昂贵的其实是计算,而一旦没有数据,代价将会更大。
大数据是工具
对于创业公司来说,在更短的时间内创造更大的价值,是企业得以存活的根本。大数据是工具,了解大数据的作用,结合业务的真实场据,满足用户需求,大数据才能真的帮得上你。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10推荐学习书籍 《CDA一级教材》在线电子版正式上线CDA网校,为你提供系统、实用、前沿的学习资源,助你轻松迈入数据分析的大门! ...
2025-03-07在数据驱动决策的时代,掌握多样的数据分析方法,就如同拥有了开启宝藏的多把钥匙,能帮助我们从海量数据中挖掘出关键信息,本 ...
2025-03-06