企业大数据建设案例分享
大数据的重要性已毋庸置疑,但大数据的采集、存储、处理、分析、研究,却不是一朝一夕炼成的!数据平台如何建设,推荐系统如何运算,等等,都是我们所关注的话题。2013年7月27日,CTO俱乐部走进了腾讯大讲堂,来自迅雷、腾讯和桉树的三位讲师齐聚一堂,分享了各自的大数据实施案例。
首先,迅雷基础研发中心数据平台技术总监陈仕明,主要从三个方面介绍了“迅雷数据平台建设及应用案例”。
中型数据平台
数据平台可以分成中型数据平台和大型数据平台,中型数据平台的主要特点是服务器资源、技术储备和人员都比较有限。迅雷的数据分析模块目前有500多台服务器,4000多个CPU,存储20P以上的数据,磁盘有3000多块,属于中型数据平台的规模。
迅雷的大数据架构
中型数据平台主要是基于开源已有的存储和计算,做一些更上层的外延性的产品。
第一层是采集,采集分成实时采集和离线采用集,其中离线采集占了业务的大部分,主要用迅雷自己开发的Xrsync工具实现。有些数据需要涉及到实时计算,会同步发,存起来之后ETL计算全部用开源计算框架。实时采集主要是采集日志文件,这种日志文件主要对应业务服务器里边所生成的日志。
数据存储之后,依然是一个物理模型,为了降低维护成本,需要把技术人员的工作尽量抽出来,让其他岗位比如数据分析师做更多的事情。这就需要把底层数据抽象为业务人员理解的数据模型,抽完之后在最下边做了维护平台,以及报表系统,还有自主查询。
最右边有两块,一块是认证与授权,从上到下所有东西都需要经过认证和授权,作为一个公司级集中式的存储平台,每个部门存储都会在这儿做,所以你必须保障数据安全和资源合理分配。迅雷的平台认证,全部采用kerberos认证。数据存到HDFS上之后,会给每一个业务,或者每个产品,开辟一个kerberos帐号,所有帐号的数据都只能放在这个帐号的home里去,包括这个帐号的Hive或者HBase都存在该目录下,并控制存储空间。
另一块是事件驱动调度:首先,任务的依赖关系用数据打通。任务和任务之间的依赖关系其实质是任务背后的数据之间的依赖关系,某一个数据跑成功了之后依赖该数据的任务才能跑。
其次,需要把后置依赖前置改成前置驱动后置,前置任务跑成功了之后,将该任务对应的“数据事件”扔到调度总线里面去,由总线把需要依赖这个“数据事件”的其他任务调起来,当然该任务能够立即跑,还要考虑到底层计算引擎目前的负载等情况。
上图是调度引擎大体的架构:最核心部分是调度总线,数据分为是Task和Job,Task维护计算逻辑,如执行的SQL脚本等;Job维护调度逻辑,如依赖什么“数据事件”, 一个Task可以配置多个Job。最左边是Web接口,前端通过该接口查询任务状态,以及控制任务等。最右边是计算环境的适配层。
数据平台使用案例
迅雷会把收集来的数据做成数据模型,最重要的数据模型是一个用户事件模型,所有的基于用户端的这种行为数据,都可以把它抽象成模型存进去,这个模型用一句话概括就是,谁对谁的什么东西做了什么事情?
这个模型拥有很多纬度,如产品纬度,用户纬度,时间纬度,客户纬度、地域纬度,运营商纬度,终端纬度,渠道纬度,事件纬度等。
这个模型能做什么:简单的比如每个产品的上线用户数,每个用户的活跃度,用户的黏性,以及某个产品的用户的地域分布,运营商分布等,活跃用户排名,最热的资源排名,如哪些电影是最常看,发生某个事件所消耗时间是多少,或者某个商品的销售收入等。
迅雷还构建了一个用户的染色库,迅雷拥有几亿的用户,但是这些用户各有什么样的特征?比如是联通用户还是电信用户,还是某个小运营商的用户?还有兴趣类标签,如游戏类标签,影视类标签等。游戏标签描述该用户喜欢什么类型游戏,影视类标签描述用户喜欢什么类型的影视;根据这些属性我们可以更好的为用户服务。
另外一个是资源的属性库。比如一个影视文件,在资源属性库拥有该文件对应的电影的名称,演员,以及电影类型等。
染色库和资源属性库的应用主要有:比如,可以计算视频指纹,根据两个视频指纹相似度计算这两部电影是不是一部电影。染色库还会应用在会员tips推广中,迅雷会弹一些tips,为了提高tips的效果,提高点击率,需要尽量精准的投放。另外在看看里边放广告的时候,也需要尽量的精准,不能最好不要把一个女性的产品,给一个男屌丝推,这样一般点击率会很差。
接下来,腾讯数据中心数据挖掘研究员肖磊,从业务的角度为我们介绍了腾讯的大数据应用之一精准推荐。他的演讲主要包括四个部分:
腾讯做了什么
2012年的时候,腾讯赞助了KDDCup主要做了两个事情,一个是微博上面的推荐,一个是广告的推荐。具体到产品上面,包括腾讯视频的推荐系统,易迅首页上的推荐,基于社交网络广告的推荐广点通,还有朋友关系链的推荐等。这些推荐都是通过分析腾讯8亿的活跃用户做出的。
遇到的问题
肖磊认为作为一个推荐系统,首先要处理好3P之间的关系。
首先是用户,其次是ITEM,第三是场景,针对不同的场景不同位置有不同的方法做应用。
解决之道——3S
分别是数据、算法和系统。这三个是相辅相成的。
会基于用户的基本信息和历史数据构建用户画像的体系,上图中提到推荐的解决之道中,数据是排在第一位的,因为数据是做好准确推荐的立根之本。
两大核心平台
有两大核心平台做这件事情,一个平台是分布式数据仓库TDW,它基于开源的Hadoop和Hive进行了大量优化和改造。第二个是一套实时推荐的平台——APOLLO,它有一些实时介入系统、流式计算系统、一个分布式的存储系统,同时还有一个很重要的推荐引擎。
8月30-31日,肖磊会在SDCC 2013(中国软件开发者大会)上担任演讲嘉宾,更多内容请关注大会官网。
最后,来自美国桉树系统公司大中华区认证讲师杨大江,带来了“合理利用桉树-Hadoop构建大数据平台”的演讲,主要介绍了如何结合云计算平台和桉树构建一个大数据系统。
桉树+Hadoop
桉树的架构主要分为三层:第一层叫云控制器;第二层是区域,桉树分了三个数据中心,每一个数据中心都是一个可用区域;第三层是大量的虚拟化,以虚拟化技术为核心的一个云体系,桉树的虚拟化支持多种技术。当构建一个大数据平台的时候,桉树和Hadoop一个是解决分的问题,一个解决合的问题。桉树是以虚拟化为核心的,解决虚拟化资源调度问题,它和一般的虚拟化有一定区别。一般虚拟机是把单机进行虚拟化,桉树考虑把整个集群虚拟化。
云计算有一个重要的思想,单节点是不可靠的,随时可扔。要靠一个软件系统保证集群,这两个系统结合优势构建大数据系统的优势主要有:
提升Hadoop部署速度
提供Hadoop高可用和容错能力
提升Hadoop环境资源利用率
安全隔离让Hadoop落地更安全
实现Hadoop云端多租户
集群易于维护和迁移
使用异构集群实现高密度存储和计算。
应用案例
这里介绍一个期货公司的案例,这个期货公司共分三个中心,一个镇江中心、一个郑州中心,还有一个天津中心。这家公司横跨了农产品建议和重金属交易行业。他们建立这个决策系统,是为了能够实时分析用户的交易行为,预测其结果,规避可能带给公司的风险。
这个系统整体叫做数据容器,也就是说这个平台将来不仅仅给自己公司用,而是通过API给各种客户端做使用。将来在云端开发各种数据应用,都可以直接调用。系统最上面用的都是桉树的产品。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31