实时大数据分析是网络分析的一种新方法
当被分解到其最简单的形式时,大数据分析包括两部分,以便将自身与数据仓库和商业智能进行区分:
实时行动
分布式,并行处理
大数据分析能够解决处理大量无关且不能存放在一个单一的服务器或数据库的数据集所带来的普遍的挑战问题。而这个问题可以通过使用分布式并行处理分布在多个服务器的大型数据集得以解决,每台服务器处理并行数据的一部分。大数据分析可以与结构化和非结构化数据工作,因为它并不需要一个特定的结构。这种做法的一个例子将使用Hadoop的MapReduce,其也可以看作是大数据对今天的深远影响。
尽管目前有方法来处理大量的数据,大数据处理缩小以便能够在指定的时间内完成。现在,时限这一概念比以往任何时候都越来越都多的与“实时”相关。
尽管RTBDA仍然是一个相对较新的概念,但其解决了实时主动或被动的采取措施的需求。而这是基于互联网内容和服务提供商们了解到了正在发生的事情,检查情况并实时采取行动。
理解“实时”电信
在实时大数据分析:新兴架构大会上,迈克巴洛问道,“所谓的实时到底有多'实时'?”“这取决于你的目标,问题的答案会有动态的变化。在某些情况下,秒或毫秒就足够了,而在另一些情况下,实时需要更快。
这个问题是从电信方面很有趣。它揭示了当前的电信运营商们如果想要成功的解决OTT公司所带来的流量挑战所必须面临的一个潜在的弱点。这样的话,目前在电信行业所能够接受的“实时”的标准就显得不再足够了。
此前,电信网络使用面向连接的技术。程序只能进行集中在一个高度结构化的进程,前一分钟的网络与后一分钟并没有多大的修改,甚至时间跨度一小时也不会有太大改变。在这些情况下,在一致的时间间隔从网络上收集信息就知道发生了什么。该协议的管理信息丰富,能够从一个协议聚集大量的洞察力。在这种情况下,“实时”可以在几秒钟之内甚至几分钟内定义,这就是为什么他们通过每5到15分钟收集呼叫详细记录(CDR)就能充分获得完全的洞察力的原因了。
同样的情形在今天已经不再可能。向LTE的过渡使电信运营商完成过渡到基于以太网和IP的数据包网络,其功能与面向连接的技术和协议是完全不同的。
IP网络的一个基本原则是:网络是自给自足的。网络提供了流量传输的通道,并依据流量拥堵和其他情况进行网络路径重定向。这个特点使网络能够迅速就相关的改变做出回应。缺点是无法确切地预测流量。这种情况又因以太网和IP协议变得复杂,缺乏面向连接的协议所能提供的同等水平的管理信息。
分组传输网络(Packet networks )本质上也是动态的,因为其设计初衷是为多个用户共享相同的基础设施提供服务的。在较长的一段时间,网络的消耗看起来很低,但在现实中流量传输需求很大,可能消耗掉所有可用的带宽。在这种情况下,对IP网络应该做出反馈,确保流量是在稳定的网络上传输。最终,在网络中可能从一个IP包或以太网帧到下一个发生变化。
电信网络管理和数据分析的中心问题是他们都依靠事件详细记录(EDRs),CDRs和IP详细记录(IPDRs)来深入了解实时发生的状况。
在过去,“实时”这一定义每隔几分钟就已经足够了。当我们考虑到以太网帧在10 Gbps网络可以以每帧短短67纳秒的时间在之间以太网帧传输,我们就开始理解在一个分组传输网络的“实时”指的是什么了。在现如今这个快节奏的环境“实时”的概念已经不仅不是分钟,也不是秒来。今天,其是以纳秒为时间间隔了。
实时评估
使用CDRs,EDRs和IPDRs进行大数据分析是一个好主意,这取决于企业正在努力完成的任务。大数据分析可以以两种方式制定决策:
实时决策
根据趋势及预测分析加强规划,以及服务和网络的优化
利用明细记录、以及其他结构化和非结构化数据源进行优化和规划是必要的。这些记录包括丰富的信息,帮助预测有用的趋势。除非辅以分组网络的实时信息,提供关于发生了什么的精确细节,否则这些信息将无法提供一个完整的视图。
不幸的是,详细的记录不能用于实时决策,因为其只是每5至15分钟的时间间隔进行收集。这个时间间隔与我们对什么是真正分组网络实时的理解不兼容。其需要不断收集,存储和分析真正的实时网络信息,进行决策。要理解网络正在发生什么,必须对所有相关的以太网帧与IP数据包进行实时审查。
通过以这种方式捕获和存储网络信息,我们不仅具备了能够分析使用实时信息的能力,同时也可以为我们提供一个了解在信息网络发生了什么事件的基础的详细可靠的方式,以补充其他大数据的活动的洞察。
RTBDA在电信行业的应用
实时数据采集层可以为决策制定提供可操作的、层出不穷的材料。无论是电信管理论坛和IP网络监控的服务质量智能支持(IPNQSIS)项目,以及欧洲Celtic-Plus计划的一部分,都曾研究过这个需求,作为提升各自客户体验管理的努力的一部分。这两个项目的结论是,探头和设备对于了解在网络中正在发生的事情的可靠,实时洞察是必要的。
典型地,探头数据采集器将数据传送到其他管理系统,而设备使用相同的技术,而且能够分析数据,并可以在本地存储信息。通常情况下,设备集中于一个特定的任务,比如性能监控,测试和测量,或安全性,并且往往被视为满足非常具体的要求。在另一方面,探头和设备可以作为大数据分析的实时数据源发挥更多的战术作用,并帮助实现RTBDA战略。下文中提供了一个这样的基础设施如何实现的三个步骤的视图。
实现部署
最初的步骤需要数据采集设备的部署。这里的一个关键因素是以太网帧和IP数据包必须被实时捕获,不管在什么情况下,以线速度且零数据包丢失。这种可见性证实了源源不断的可靠信息的收集。
每帧必须被赋予独特的时间间隔,以保证精确的时间表可以被建立,不仅涵盖本地的设备,同时还能跨多个设备。这些时间间隔精度必须是以纳秒为计量单位。例如,在10 Gbps的网络以太网帧只有67纳秒的时间间隔,时间间隔分辨率必须小于67纳秒。否则,两个以太网帧都会收到相同的时间间隔,使得其很难区分。在一个100 Gbps的网络,这段时间间隔将减少到6.7纳秒。
结合零数据包丢失捕捉纳秒级精度的实时数据,确保了我们能够掌握一致的,准确的数据分析信息流。
存储
其次,收集的信息应该实时被存储。几个设备提供捕捉的数据存储到磁盘,允许实时的数据可以直接存储到本地硬盘。另外,这些数据可以被转移到一个存储区域网络(SAN)或其他位置。捕获的数据可以被用来在网络上创建一个历史年表,以精确的细节记录发生了什么。其可能用来重现到底发生了什么事,当进行重现时,使用这些数据。
这段细节记录历史是数据分析的一个丰富的信息源。这种类型的数据可以为数据信息的使用和行为模式提供洞察。如果设备具有深度数据包检测(DPI)的功能,那么,使用服务,包括互联网服务,可以监视和分析时间,地点和设备类型使用方面的趋势。
这种信息本身对于网络和服务的优化是一种宝贵的资源。可以据此来规划新的,有针对性的服务,以匹配用户的喜好。此外,这些信息可以为互联网内容服务提供商提供洞察,让运营商能够向潜在客户提供令人信服的服务能力。
实时评估
最后,实时的数据存储有助于实现实时决策。捕获到磁盘的历史信息可帮助开发预期行为的配置文件。当数据与网络活动的实时信息并置时,能够检测出意想不到的事件或异常。这些问题可能是一个安全威胁,也有可能是性能下降或有机会为客户提供一个数据扩展包或互补性的服务。
从RTBDA的角度来看,这种能力与OTT内容及服务提供商执行的能力是非常接近的,基于对对目前正在发生的事情,并与过去的事情比较进行理解做出实时的反应。
RTBDA战略基础
遵循这三个步骤来实施,通过探头和设备提供的实时信息可以用来实现RTBDA电信网络以及在大数据分析战略规划中用其他信息来源以补充。
这一技术和产品用来实现战略部署不仅仅是可用的,而且已经被广泛使用了,只是不以这方面的目的。更有趣的是,当今绝大多数企业,金融,政府和电信网络所使用的设备都是基于现成的服务器技术,其是与未来的运营计划相兼容的。
软件定义的网络(SDN)和网络虚拟化功能(NFV)策略的基石都是基于现成的服务器硬件。
RTBDA在未来的电信业的展望
现在是时候需要现代电信网络重新考虑“实时”这一概念的意义,以及他们所使用的大数据分析的信息源了。电信运营商必须开始评估在网络中使用探头和设备技术等更多的战术方法来提供RTBDA了。这样,不仅能够为规划决策提供更准确的信息,同时也可以创造新的机会,提供更好的服务,不仅为最终用户,也为OTT服务提供商自身。这种能力最终可以帮助电信网络的OTT解决流量的货币化问题。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31