香港企业采用大数据技术仍在起步,要考虑的事的确很多,但笔者认为厂商经常说得过于复杂,令企业设计大数据架构时存有疑问,例如在建构时选何制定方案使用方法及规模,相信是很多决策人希望了解的事,那么我们尝试化繁为简,由浅入深了解部署时的考虑点。
在我们考虑大数据时,注意力放在「大」这个字,但是在建设基础架构时,我们还应该注意「分散式」的数据处理。事实上,大数据软件需要处理大量资讯,而且在将资料复制到多个位置时,数据的容量便会倍增。但是,大数据的最重要属性并不在于它的规模,而在于它将大作业分割成许多小作业的能力,它能够将一个任务的资源分散到多个位置变为同时处理。在将大规模和分散式架构组合在一起时,我们就能发现大数据网络有一组特殊的需求,下面是需要考虑的六个要素:
1.不容有失 提升网络弹性
如果有一组分散式资源必须通过互联网进行协调时,可用性就变得非常重要。万一网络出现故障,便会出现不连续的计算资源与资料库崩坏。说白一点,大多数网络工程师的主要关注点是正常执行时间,但是,网络故障的原因又各不相同,包括设备故障(硬体与软体)、维护和人为错误。我们都知道伺服器故障是避无可避,网络的可用性也很重要,所谓完美的设计其实是不存在。
网络架构师应该设计一些能适应故障的弹性网络,网络的弹性取决于路径多样性(资源之间设置多条路径)和容错移转(能够快速发现问题和转移到其他路径上)。除了传统的平均故障时间间隔(MTBF)方法,大数据网络的设计标准一定要包括这些架构。
2. 解决网络拥塞
大数据应用程式不仅仅是规模大,而且还有突发性的流量「洪峰」。当一个程序启动后,数据就开始流转,在高流量时段时拥塞造成的问题可以很严重,例如可能引起更多的Queues增加延迟和packet lost。网络拥塞还可能令请求多次发出,这可能让本身负载繁重的网络无法承受。因此,网络架构设计时应该尽可能减少拥塞点,要网络具有较高的路径多样性,这样才能容许网络流量分流到大量不同的路径上。
3. 性能一致要比迟延性更重要
实际上,大多数大数据应用程式对网络延迟并不敏感。如果运算时间以秒计或以分钟计的话,即使出现较大延迟也是可以接受,例如为几千ms。然而,大数据应用程式一般具有较高的同步性。这意味着作业是并存执行的,而各个作业之间较大的性能差异可能会引发应用程式故障。除第1至2点提到网络的高效性,空间和时间上也要具有一致的性能。
4. 预留未来的扩展性
大多数大数据丛集实际上并不大,根据Hadoop Wizard的资料,2013年大数据丛集的平均节点数量只有100个。换句话说,即使每一台伺服器配置双重redundancy,支援整个丛集也只需要4个接入switch (假设是分别有72个10GbE网络接口的Switch)。
扩展性并不在于现在丛集现在有多大规模,而是在乎如何平衡地扩展支援未来的部署规模。如果基础架构设计现在只适合小规模部署,那么整个架构将如何随着节点数量的增加而不断进化?未来何时需要完全重新设计?这个架构是否需要一些近程资料和资料位置资讯?关键是扩展性并不在于绝对规模,而是更关注于实现足够规模解决方案的路径。
5. 网络分割 关键任务先行
网络分割是大数据应用环境的重要条件,形式上,要将大数据的流量与其他网络流量区分开来,这样应用程式产生的突发流量才不会影响其他关键任务网络负载。除此之外,运行多个作业的多个用户,以满足性能、合规性和审计的要求。这些工作要求在一些场合中实现网络负载的逻辑分离,某些场合还要作物理分离。
6. 应用感知力
虽然大数据的概念与Hadoop部署关系密切,但是它已经成为丛集环境的代名词。根据不同应用程式的特点,环境的需求随之不同。有一些可能对频宽要求高,一些则可能对延迟很敏感。总之,一个网络要支援多应用程式和多用户,它就必须要能够区分自己的工作负载,并且要能够正确处理各个工作负载,不仅仅是提供足够的频宽。
最后,应用程式体验取决于很多因素,包括网络拥塞和分割。创建一个满足所有这些需求的网络需要具备前瞻性,不仅要考虑基础架构能够支援的伸缩规模,还要考虑不同类型的应用程式如何共存于同一环境中。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12