原来在线广告公司都是这样使用Spark处理流数据的-CDA数据分析师官网

原来在线广告公司都是这样使用Spark处理流数据的

2015-06-30

原来在线广告公司都是这样使用Spark处理流数据的

在Hadoop集群上部署Spark处理引擎，每天处理14TB的交易数据，这就是在线广告平台Altitude Digital最近的实践，它主要追踪用户的社交媒体数据。

AltitudeDigital首席技术官Manny Puentes透露，Spark部署会在今年四月中旬上线，公司为了成功在Hadoop系统中应用Spark Streaming模型，特地将计算节点从30扩展到50。

目前，Altitude Digital使用的是Hive数据仓库软件，这是Apache另一个开源技术，用于查询存储在集群中的数据，基于MapR Hadoop发行版。Puentes表示：“Hive是长时间运行的报表，一旦崩溃，要返回TB级别数据就得花费几个小时的时间。”在测试中，Spark Streaming查询速度是Hive的4到20倍，处理的数据集的规模和复杂度会对查询速度产生影响。

查询速度的提高对公司来讲意义重大，因为公司的分析应用程序，比如通过视频广告浏览数据优化广告位置，经常需要运行查询、等待结果、根据结果优化查询，然后再次运行。如果实践中能获得测试的性能，分析团队可能在一天之内得到复杂查询的答案，不需要再花上四五天的时间了。Puentes介绍到：“这对我们的业务来讲是很有意义的。”

流数据的多种应用方式

AltitudeDigital正在尝试集成来自多种不同的数据源的数据流，通过一定的算法，基于浏览cookie了解用户的行为。公司的另一个目标是给线上广告商更快的仪表盘访问。Puentes表示：“我们也希望能够实时反馈数据洞察力给广告商。”

Spark还只是Altitude Digital应用的技术之一，公司每天通过Spark Streaming处理交易数据的同时，也在使用Concurrent提供的开源Cascading软件来运行MapReduce批处理任务。Spark也支持批处理，而且生成处理速度是MapReduce的一百倍。但Puentes表示，他还是希望使用MapReduce容错技术确保任务完成。

Sharethrough是另一个采用了Spark Streaming的在线广告公司，它用来支持运行在AWS上的基于Cloudera的Hadoop集群。Sharethrough在2013年中期开始使用Databricks公司的Spark云部署，目前通过流处理模块每天运行500GB的互联网点击和广告可视数据。

Spark系统搭载机器学习应用程序，分析原生广告的效果。Sharethrough系统集成副总裁Rob Slifka表示，Hadoop集群部署两年以后，很明显，批导向的系统不能满足企业实时分析的需求。广告商和发行商不得不使用几小时以前的数据决定在哪里做广告，这就给广告优化带来了挑战。Slifka表示，因为Sharethrough平台支持的广告的本质决定的，这样做会很复杂。头条和触屏文本可以形成不同的组合。

数据流和点击率

这种头条-文本的方式更有效。在一次Sharethrough；进行的测试中，内部广告点击率从不足1%增长到7%，这在广告界是很大的进步。之所以采用Spark Streaming就是考虑到它能够快速识别那版广告最有效。Slifka表示：“如果你有十种组合，其中五种都不好，你一定想要快速地了解到哪五种不好。”

多亏了数据流技术，公司才能够用不同的网站用户测试不同的广告，然后快速分析结果，识别哪个广告最有效。Slifka表示：“我们从来不会选择一个单独的赢家，通过Spark Streaming，我们会采用一对组合，使其成为最好的广告。”

Russell Cardullo领导了Spark技术部署，他表示，流处理让性能检测更重要，也更有挑战性。“你需要认识到，这是要7*24小时不间断运行的。数据无时无刻不在产生，你需要及时掌握数据情况，而不是等发生问题了再去解决。”

他补充道，公司运行Spark Streaming，到目前只遇到一个处理问题，而且该问题不是由软件本身引发的，而是公司使用的为Spark提供数据的亚马逊Kinesis和RabbitMQ技术引发的。

Gartner分析师Nick Heudecker和McKnight咨询公司总裁William McKnight也指出了企业在融合大数据和流处理技术时面临的其他挑战。包括构建高可用的技术架构以应对数据处理工作负载，同时能够满足公司分析和业务处理的需求，使其能够利用流数据。Heudecker表示：“如果只加速业务流程的5%，其他95%都没有变，那就没有什么意义了。”

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

Hadoop Hive 数据仓库机器学习大数据

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

原来在线广告公司都是这样使用Spark处理流数据的

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...