企业大数据建设案例分享
大数据的重要性已毋庸置疑,但大数据的采集、存储、处理、分析、研究,却不是一朝一夕炼成的!数据平台如何建设,推荐系统如何运算,等等,都是我们所关注的话题。2013年7月27日,CTO俱乐部走进了腾讯大讲堂,来自迅雷、腾讯和桉树的三位讲师齐聚一堂,分享了各自的大数据实施案例。
首先,迅雷基础研发中心数据平台技术总监陈仕明,主要从三个方面介绍了“迅雷数据平台建设及应用案例”。
中型数据平台
数据平台可以分成中型数据平台和大型数据平台,中型数据平台的主要特点是服务器资源、技术储备和人员都比较有限。迅雷的数据分析模块目前有500多台服务器,4000多个CPU,存储20P以上的数据,磁盘有3000多块,属于中型数据平台的规模。
迅雷的大数据架构
中型数据平台主要是基于开源已有的存储和计算,做一些更上层的外延性的产品。
第一层是采集,采集分成实时采集和离线采用集,其中离线采集占了业务的大部分,主要用迅雷自己开发的Xrsync工具实现。有些数据需要涉及到实时计算,会同步发,存起来之后ETL计算全部用开源计算框架。实时采集主要是采集日志文件,这种日志文件主要对应业务服务器里边所生成的日志。
数据存储之后,依然是一个物理模型,为了降低维护成本,需要把技术人员的工作尽量抽出来,让其他岗位比如数据分析师做更多的事情。这就需要把底层数据抽象为业务人员理解的数据模型,抽完之后在最下边做了维护平台,以及报表系统,还有自主查询。
最右边有两块,一块是认证与授权,从上到下所有东西都需要经过认证和授权,作为一个公司级集中式的存储平台,每个部门存储都会在这儿做,所以你必须保障数据安全和资源合理分配。迅雷的平台认证,全部采用kerberos认证。数据存到HDFS上之后,会给每一个业务,或者每个产品,开辟一个kerberos帐号,所有帐号的数据都只能放在这个帐号的home里去,包括这个帐号的Hive或者HBase都存在该目录下,并控制存储空间。
另一块是事件驱动调度:首先,任务的依赖关系用数据打通。任务和任务之间的依赖关系其实质是任务背后的数据之间的依赖关系,某一个数据跑成功了之后依赖该数据的任务才能跑。
其次,需要把后置依赖前置改成前置驱动后置,前置任务跑成功了之后,将该任务对应的“数据事件”扔到调度总线里面去,由总线把需要依赖这个“数据事件”的其他任务调起来,当然该任务能够立即跑,还要考虑到底层计算引擎目前的负载等情况。
上图是调度引擎大体的架构:最核心部分是调度总线,数据分为是Task和Job,Task维护计算逻辑,如执行的SQL脚本等;Job维护调度逻辑,如依赖什么“数据事件”, 一个Task可以配置多个Job。最左边是Web接口,前端通过该接口查询任务状态,以及控制任务等。最右边是计算环境的适配层。
数据平台使用案例
迅雷会把收集来的数据做成数据模型,最重要的数据模型是一个用户事件模型,所有的基于用户端的这种行为数据,都可以把它抽象成模型存进去,这个模型用一句话概括就是,谁对谁的什么东西做了什么事情?
这个模型拥有很多纬度,如产品纬度,用户纬度,时间纬度,客户纬度、地域纬度,运营商纬度,终端纬度,渠道纬度,事件纬度等。
这个模型能做什么:简单的比如每个产品的上线用户数,每个用户的活跃度,用户的黏性,以及某个产品的用户的地域分布,运营商分布等,活跃用户排名,最热的资源排名,如哪些电影是最常看,发生某个事件所消耗时间是多少,或者某个商品的销售收入等。
迅雷还构建了一个用户的染色库,迅雷拥有几亿的用户,但是这些用户各有什么样的特征?比如是联通用户还是电信用户,还是某个小运营商的用户?还有兴趣类标签,如游戏类标签,影视类标签等。游戏标签描述该用户喜欢什么类型游戏,影视类标签描述用户喜欢什么类型的影视;根据这些属性我们可以更好的为用户服务。
另外一个是资源的属性库。比如一个影视文件,在资源属性库拥有该文件对应的电影的名称,演员,以及电影类型等。
染色库和资源属性库的应用主要有:比如,可以计算视频指纹,根据两个视频指纹相似度计算这两部电影是不是一部电影。染色库还会应用在会员tips推广中,迅雷会弹一些tips,为了提高tips的效果,提高点击率,需要尽量精准的投放。另外在看看里边放广告的时候,也需要尽量的精准,不能最好不要把一个女性的产品,给一个男屌丝推,这样一般点击率会很差。
接下来,腾讯数据中心数据挖掘研究员肖磊,从业务的角度为我们介绍了腾讯的大数据应用之一精准推荐。他的演讲主要包括四个部分:
腾讯做了什么
2012年的时候,腾讯赞助了KDDCup主要做了两个事情,一个是微博上面的推荐,一个是广告的推荐。具体到产品上面,包括腾讯视频的推荐系统,易迅首页上的推荐,基于社交网络广告的推荐广点通,还有朋友关系链的推荐等。这些推荐都是通过分析腾讯8亿的活跃用户做出的。
遇到的问题
肖磊认为作为一个推荐系统,首先要处理好3P之间的关系。
首先是用户,其次是ITEM,第三是场景,针对不同的场景不同位置有不同的方法做应用。
解决之道——3S
分别是数据、算法和系统。这三个是相辅相成的。
会基于用户的基本信息和历史数据构建用户画像的体系,上图中提到推荐的解决之道中,数据是排在第一位的,因为数据是做好准确推荐的立根之本。
两大核心平台
有两大核心平台做这件事情,一个平台是分布式数据仓库TDW,它基于开源的Hadoop和Hive进行了大量优化和改造。第二个是一套实时推荐的平台——APOLLO,它有一些实时介入系统、流式计算系统、一个分布式的存储系统,同时还有一个很重要的推荐引擎。
8月30-31日,肖磊会在SDCC 2013(中国软件开发者大会)上担任演讲嘉宾,更多内容请关注大会官网。
最后,来自美国桉树系统公司大中华区认证讲师杨大江,带来了“合理利用桉树-Hadoop构建大数据平台”的演讲,主要介绍了如何结合云计算平台和桉树构建一个大数据系统。
桉树+Hadoop
桉树的架构主要分为三层:第一层叫云控制器;第二层是区域,桉树分了三个数据中心,每一个数据中心都是一个可用区域;第三层是大量的虚拟化,以虚拟化技术为核心的一个云体系,桉树的虚拟化支持多种技术。当构建一个大数据平台的时候,桉树和Hadoop一个是解决分的问题,一个解决合的问题。桉树是以虚拟化为核心的,解决虚拟化资源调度问题,它和一般的虚拟化有一定区别。一般虚拟机是把单机进行虚拟化,桉树考虑把整个集群虚拟化。
云计算有一个重要的思想,单节点是不可靠的,随时可扔。要靠一个软件系统保证集群,这两个系统结合优势构建大数据系统的优势主要有:
提升Hadoop部署速度
提供Hadoop高可用和容错能力
提升Hadoop环境资源利用率
安全隔离让Hadoop落地更安全
实现Hadoop云端多租户
集群易于维护和迁移
使用异构集群实现高密度存储和计算。
应用案例
这里介绍一个期货公司的案例,这个期货公司共分三个中心,一个镇江中心、一个郑州中心,还有一个天津中心。这家公司横跨了农产品建议和重金属交易行业。他们建立这个决策系统,是为了能够实时分析用户的交易行为,预测其结果,规避可能带给公司的风险。
这个系统整体叫做数据容器,也就是说这个平台将来不仅仅给自己公司用,而是通过API给各种客户端做使用。将来在云端开发各种数据应用,都可以直接调用。系统最上面用的都是桉树的产品。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30