史上最实用的大数据实施系统计划
大数据——这个词看起来比较深奥,一般非专业人士听着觉得相对复杂,觉得可能需要很大成本来部署和实施。然而幸运地是市面上已经有一些云服务来帮助我们让大数据变得更简单。另外,如果你选择合适的工具,也往往会使你的大数据之路起到事半功倍的效果。
因此在实际应用上,大数据的实际实施系统可以有很多种方式。通过你的预算和思考规划,你将能使用最便捷、最实用、又最低成本的大数据实施系统。
在选择据具体大数据工具之前,你最好回答三个问题:
1. 你的数据有多大?
2. 你希望你的数据查询要多快?
3. 你想要怎样展现数据?
第一个问题决定你需要什么样的大数据存储系统,第二个问题决定你需要什么样的查询或者执行引擎。第三个问题决定了你需要怎样功能的相关数据可视化工具。第三个问题相对简单,市面上的数据可视化工具特色明显:大数据魔镜可视化效果达500种以上,展现效果绚丽,适合需要多种展现方式的数据;Tableau可视化效果少,但数据展示功能依然很强,能够直观展示普通可视化需求的数据。
下面是基于对前两个问题的不同回答,推荐采用的一些工具。
1. 超大数据(几百TB),查询时间容忍度很高(几小时)
这个是批处理(batch processing)适用的场景。一个可行的方案是:AWS S3 + Apache Spark。你可以执行Spark任务,读取S3中的数据,然后将计算结果存成CSV文件,最后用Excel分析或者可视化结果。
2. 中等规模数据(几十TB),希望查询快速响应(几秒钟)
这个通常是交互式查询适用的场景。一个可行的方案是:AWS Redshift + Tableau。 Redshift提供低延迟查询处理,Tableau提供很好的数据可视化功能,二者结合起来可以轻松的分析大量数据,只是需要一定的成本。需要提醒的是,你最好提前规划好 Redshift集群的规模和容量,减少随机动态调整, 因为在Redshift中,扩展集群(scale up or scale out)是个比较痛苦的过程。
3. 中等规模数据(几十TB),一定的查询响应容忍度(几分钟),低成本
这个场景适用于预算有限的情况,或者你不想在AWS Redshift和Tableau上投入太多。你将需要对大数据比较了解的开发人员,从而可以自己搭建企业内部的大数据集群。一个可行的解决方案是:Apache Cassandra + Presto Query Engine + H2 Console (from H2 Database Engine)。
Cassandra提供高可靠性大数据存储系统,并且比较容易部署。Presto提供分布式SQL执行引擎,可以运行在Cassandra之上,并提供 JDBC支持。H2 Console是一个简单但是有效的Web界面,用来查询JDBC数据源。利用这些工具组合,你不需要任何编程工作,就可以在企业内部搭建起一个端到端大数据解决方案。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31本人基本情况: 学校及专业:厦门大学经济学院应用统计 实习经历:快手数据分析、字节数据分析、百度数据分析 Offer情况:北京 ...
2025-01-3001专家简介 徐杨老师,CDA数据科学研究院教研副总监,主要负责CDA认证项目以及机器学习/人工智能类课程的研发与授课,负责过中 ...
2025-01-29持证人简介 郭畅,CDA数据分析师二级持证人,安徽大学毕业,目前就职于徽商银行总行大数据部,两年工作经验,主要参与两项跨部 ...
2025-01-282025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-01-27在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-01-26数据指标体系 “数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而 ...
2025-01-26在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-25俗话说的好“文不如表,表不如图”,图的信息传达效率很高,是数据汇报、数据展示的重要手段。好的数据展示不仅需要有图,还要选 ...
2025-01-24数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪70 ...
2025-01-24又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-23“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07