从2008年60人规模的“Hadoop in China”技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验。。
为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT巨头在大数据领域的探索之路。
大数据为企业的发展带来了巨大商机,在各个企业中都发挥了良好的应用,这里将为大家送上历届中国大数据技术大会PPT精粹的大数据应用篇。
以下为历届中国大数据技术大会PPT精粹的大数据的应用篇:
腾讯精准推荐中心广告推荐负责人薛伟:腾讯广点通——大数据之上的实时精准推荐
PPT下载 ——2013年第七届BDTC
广点通是基于腾讯大社交平台的效果广告营销产品,在腾讯大社交平台海量用户积累的基础上,运用大数据技术,进行以人为核心的数据挖掘,实现精准的广告推荐。腾讯精准推荐平台是广点通背后的支撑系统之一,具有数据海量、系统实时和算法精准的特点。薛伟从数据、算法、系统等几个方面对广点通进行了介绍。广点通从推荐的视角看数据,形成用户、物品和推荐位之间的交叉效应;推荐本质上是一种个性化排序,针对不同的推荐场景,采用不同的数据和不同的算法策略,其中算法包括规则算法、基于内容的算法、协同过滤算法、图算法和分类算法等;关于系统方面,采用了腾讯分布式数据仓库和腾讯实时计算平台,借助实时系统助力精准推荐。
淘宝核心系统存储系统研发专家杨志丰:OceanBase——淘宝结构化大数据解决之道
PPT下载 ——2012年第六届BDTC
杨志丰表示淘宝每天大约有6000万用户登录以及20亿PV。淘宝数据库对于淘宝来说非常重要。几乎所有淘宝业务都依赖淘宝数据库。淘宝数据库具备数以千计的数据库服务器,需要同时应对单表几亿至几百亿条的记录以及每天几亿至几百亿次访问。为了应对大数据的冲击,淘宝将以前的Oracle、小型机、高端存储模式转变到现今的MySQL、OceanBase、Hbase、MongoDB等数据库,并使用普通PC服务器。杨志丰表示OceanBase可扩展数千亿条记录、数百TB数据、数十万QPS以及数万TPS。同时具备实时容错、自动故障恢复和99.999%高可用性。
奇虎360高级软件工程师肖康:Storm在实时网络攻击检测和分析的应用与改进
PPT下载 ——2013年第七届BDTC
肖康从业务需求、解决方案、问题与改进三个方面介绍了对访问360的服务进行实时统计和攻击检测的Storm平台。使用storm主要是从实时、扩展、容错和灵活四方面考虑,能够有效的提高时效性(10秒内可以检测到异常访问)、吞吐(单机群一个topology每个bolt10个并发,处理10Gb/s)、对业务影响(流量走光纤旁路给storm处理,对业务逻辑没有影响,不需要做任何修改),但是storm在稳定性、可用性和易用性方面仍存在着一些问题。肖康列举了其中的8个问题,并相应的给出了其改进方法,并提出了公司的未来工作。
小米软件开发工程师冯宏华:HBase在小米的应用与扩展
PPT下载——2013年第七届BDTC
冯宏华主要介绍了HBase在小米的应用现状、小米对HBase已做的改进和扩展以及进行中/计划中的改进与扩展。HBase目前的集群规模为15个HBase集群,包括9个在线集群、2个离线处理集群和4个测试集群,服务于小米内部的十多个不同业务,具有几百台机器,每个数据节点为24TB。主要应用场景为小米云服务、米聊消息全存储、小米推送服务、MIUI离线分析和多看离线分析;小米对HBase已做的改进包括Delete的语义校正、可控粒度跨机房备份、写吞吐性能优化等多方面;计划的改进与扩展包括Compact优化、Failover优化、Master重构、多租户等方面。
中国移动通信研究院技术经理徐萌:中国移动大数据应用实践
PPT下载——2013年第七届BDTC
她表示中移动移动互联网用户流量激增,手机数据化、宽带化趋势明显,亟需深挖大数据的价值。这与中国智能交通协会理事长吴忠泽在会上的观点不谋而合。中国移动网络规模和拥有用户数全球第一。在用户流量激增时,手机数据化、宽带化趋势很明显。而在这样的发展趋势下,大数据处理核心基础转变很明显。在传统数据分析处理时代,所用的硬件和软件都不再适应。所以大数据处理的时代,要尤其关注MPP DW+Hadoop的应用。在实践中,中国移动也发现关于使用Hadoop的一些问题:版本不一,缺乏规划;调优复杂,门槛较高;自有人员不足,控制力弱。为此,中国移动将基于开源Hadoop软件的大云大数据平台BC-Hadoop开源,尝试开源模式!
中科院计算所副研究员查礼:大数据技术如何用于传统信息系统
PPT下载——2013年第七届BDTC
通信、网络、存储、传感器等电子信息技术的飞速发展导致了数据规模的极大增加,传统的存储并处理这些数据的技术手段遇到了瓶颈,同时,数据爆炸对数据存储与处理效能提出了挑战。高速发展的数据型互联网企业需要连续的系统扩展能力,这需要解决数据快速增长与数据中心扩容周期缓慢的矛盾;如何维持低成本曲线和高性能曲线是现实问题,这是数据业务深度的不断加强和数据处理性能现状的矛盾。数据计算技术呈现规模大、计算快和检索准的发展态势,Hadoop这样的大数据技术源于互联网应用,需求和游戏规则的不同导致必须经过改造才能适用于传统信息系统应用。
Teredata天睿公司大中华区Aster事业部总监孔宇华:驾驭大数据——如何实现大数据的应用性
PPT下载——2012年第六届BDTC
孔宇华主要讲述了如何来让大数据更加地平民化、更加大众化。他表示,大数据是天时地利人和,让它发挥价值也是需要天时地利人和的。不仅在技术方面、在人员方面、流程方面都需要注意。在大数据方面,从应用看企业需求,从易用看维护,从速度看如何实现数据精华。企业在开发新的大数据平台、大数据产品的时候要考虑到易用,要考虑到你的用户和后端的人员是哪些人,他们是用SQL的还是做代码的。你是要用大数据来解决什么样的问题以及哪方面的问题,之后再从这个应用的需求方面再推断大数据平台和技术上的需求。
人云科技创始人兼总经理吴朱华:中小企业Big Data解决之道
PPT下载——2012年第六届BDTC
吴朱华表示海量数据呈现“4V + 1C”的特点。即Variety:一般包括结构化、半结构化和非结构化等多类数据,而且它们处理和分析方式有区别;Volume:通过各种设备产生了大量的数据,PB级别是常态;Velocity:要求快速处理,存在时效性;Vitality:分析和处理模型必须快速变化,因为需求在变;Complexity:处理和分析的难度非常大。他认为中小企业面对大数据的解决之道应遵循采集、导入/处理、查询、挖掘的流程。另外,他还介绍了自家的YunTable。这是在传统的分布式数据库和新的NoSQL技术的基础上发展而来的新一代分布式数据库。通过它能构建一个百台级别的分布式集群来管理PB级别的海量数据。
凯备份技术总监兼高级架构师卢亿雷:Hadoop在网盘和在线备份的应用与挑战
PPT下载——2012年第六届BDTC
凯备份(Carbonite China)技术总监兼高级架构师卢亿雷阐述了HDFS和HBase在网盘和在线备份的应用、大数据的挖掘与处理、小文件的存储、备份文件至云端、文件全路径存放方式以及Namespace的管理等方面的问题。他还谈到MongoDB的经验分享:尽量创建索引;限定返回结果条数;Filter只返回需要的数据;优化主键,尽量自己控制主健ID;UUID主键使用BinaryData数据类型存储;注意文件大小不超过16M。最后,他补充道,用什么技术不是关键,关键是怎么用:明确需求,找准关注点;选择方法,要成熟技术,均衡复杂度;高效运营。
精诚资讯云中心Big Data事业部首席顾问陈昭宇:企业应用Hadoop的最佳模式
PPT下载——2012年第六届BDTC
企业使用大数据面临着存储、计算、管理和分析等方面的挑战,Hadoop作为大数据处理的最佳工具,企业在应用时仍然面临着部署、应用和运维等众多方面的挑战,陈昭宇用具体实例介绍了使用Etu Appliance的优势,这也是企业搭建Hadoop平台的最佳模式。相比自建Hadoop集群,采用Etu一体机,技术门槛低、人才招聘容易、上线时间迅速预计系统性能良好。同时,它还具有快速部署、性能优化、水平扩展、容错机制、安全简便等特性,特别适合海量数据处理。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-11