大数据改变世界:数字化的你永存于世
早晨我睁开眼,一般第一件事就是去摸枕边的手机,打开微信,看看朋友圈里最新的动态,再打开新闻客户端,看看最新的消息。天气预报和监测空气质量的APP已经精确到了以小时计,不用跑到阳台上去看天气,就能确定穿什么。洗漱的时候,豆瓣音乐里播放着推荐的最新歌曲。吃过早饭去上班,如果有采访,出门的时候首先用地图搜索一下路线。在地铁上,打开微信公众账号,看几篇最新的评论,等采访对象的时候,打开手机邮箱,温习一下存在发件箱里的采访提纲,至于采访时的录音,当然也交给手机完成了。
趁着午饭的时候,用微信跟家人联系一下,顺便发几张新的照片到朋友圈与大家分享。下午的时间,多数时候是在办公室度过,在网上搜集新闻线索,查找采访对象的联络方式,登录学术网站下载几篇相关的论文看看。傍晚下班后,如果不想挤地铁,可以打开拼车软件搜索一下附近有没有同行的人,回家路上,看看已经下到手机里的新电影,还可以顺便登录网店买本朋友推荐的新书。
这样的生活轨迹,相信对绝大部分年轻人来说并不陌生,手机已经成为我们生活中必不可少的伙伴,可以用来工作、娱乐、购物、社交、搜索、找路等等,但我们可能并没有意识到,所有这些便利的功能,背后都依赖海量数据的运算。同时,我们自己也成为数据“供应商”–当我们使用微信,数据会保存在腾讯的服务器上;当我们查看天气预报、空气质量、搜索路线、接发邮件,不仅第三方服务商掌握了这些数据,通信运营商也会了解我们一天的活动轨迹,至于看电影和购物,服务商很容易就此可以判断出我们个人的喜好。
人类历史上,从来没有一个时代像今天这样与数据紧密相连,各种各样的智能终端设备使得数据生成无处不在。数据又是怎样改变我们的现实与未来的呢?
亚马逊总裁杰夫·贝索斯说过:“如果我的网站上有一百万个顾客,我就应该有一百万个商店。”现在的零售网站在挖掘顾客偏好的时候主要有两种方式:一种是基于用户,来判断顾客之间的相似性,比如当你在网上买了一本最新的小说,网站就会自动提醒你买这本小说的顾客中还有65%的人买了另外一本。借助“群体的智慧”,让顾客的购买行为来帮助完成“人以群分”。另一种方式是基于商品,通过判断商品之间的关联度来完成推荐,比如当你购买了一款剃须刀,网站自然就会就推荐一款对应的须后水,由此形成“物以类聚”。
这种基于“协同过滤”技术的推荐引擎,现在已经比较普遍,其实,大数据还能做更多。比如,你登录购物网站,浏览了几款商品,但最后没有下单,以前认为这些数据是没用的,不计入交易记录,但其实你的网络路径已经折射了你的喜好,你寻找某一款商品的方式,你在某一款商品上停留的时间多少,都可以推断出你潜在的购买意愿。专门从事推荐引擎开发的百分点公司就是这一领域的探索者,公司创始人苏萌告诉本刊记者:“从数据的价值来看,没买比买了更重要。”
曾在美国学习营销模型的苏萌说,大数据将会实现营销人的终极追求–真正了解每一个人的需求,而不是为群体画像。未来,随着大数据的深度挖掘,很有可能会出现这样一幕场景–你想买一款护肤品,登录购物网站后,还没等搜索,就已经有两款适合你的护肤品显示在页面上了,而且还是你心仪的牌子。为什么网站能了解你的需求,很可能是因为你刚刚在微博上跟朋友讨论起这个牌子的护肤品。当然,如果你不喜欢这种略显“亲密”的销售方式,只需关闭推荐任务即可。
美国妇女尼基·史密斯(左)正在用谷歌翻译软件给领养的女儿讲笑话
如果你厌倦了网络购物,周末想跟家人一起去逛逛超市,大数据照样能够大显身手。大型超市宛如迷宫,商品琳琅满目,很多人不喜欢去超市,主要是因为购物效率太低,找起东西来太麻烦。英格兰最大的连锁超市Stop﹠Shop开发了一套智能购物车系统,他们在超市的购物车上安装了一个计算机,并在超市内部布置了无线网,顾客只需要在会员卡上勾出自己的购物清单,然后在购物车计算机上刷一下,屏幕上就会自动显示出你的“最优购物路线”,通过天花板上的位置追踪系统,指引你到选中的货架面前。另外一家名为Sensory的公司更进一步,正在开发一种可以和顾客交谈的智能系统,取名为“超市阿凡达”。当你站在摆满薯片的货架面前犹豫不决时,购物车显示屏上的“阿凡达”就开口了:“您需要什么样的薯片?”“我想要低糖的番茄味。”很快,阿凡达回道:“在上面第二排靠左边位置,我推荐乐事的。”这背后,依托的就是对大数据快速而精准的运算,因为你的位置信息、语音信息和商品的详细信息,都可以转化成数据。
不单零售业,大数据已经开始影响很多传统行业,比如金融和保险,他们最大的挑战都是风险控制。百分点公司与一家银行合作,利用大数据的方式来筛选网上登记的信用卡申请资料。苏萌向本刊记者介绍,这家银行的信用卡网上申请,只有1/5的人能够通过,之所以通过率很低,是因为信息不对称,仅凭有限的个人资料,银行不敢贸然发卡。因为百分点的个性化搜索引擎与国内几十家电子购物网站都有合作,掌握了丰富的消费者数据,成为筛选信用卡客户的利器。“比如你申请信用卡的这个ID,在过去的两个月内从网上买过一台数码相机、一件品牌服装,就能大概判断出你的消费水平,从而推断你的还款能力。”苏萌介绍说。
另外一家从事大数据业务的天云融创数据公司正在与一家保险公司合作,其CEO雷涛向本刊记者介绍,保险公司很担心客户流失,但对于几十万客户来说,如何判断哪些人有可能流失是个难题。传统办法往往是做抽样调查,形成分析报告,然后找对策、实施、再评估。这样一个流程下来,速度慢,而且效果不可控。现在,借助大数据,保险公司可以通过客户的保险记录,清晰地判断每个人的流失风险,每个销售员手机上都下载了一个客户端,可以轻松查到自己客户的流失风险指数,由他们去对症下药即可,最后再由销售员反馈效果,自动生成评估结果。雷涛告诉本刊记者:“大数据可以让系统生成一个闭环操作,扁平化决策,自动化运行。”
大数据在医疗保健领域的应用更加鼓舞人心。认识自己一直是人类不懈的追求,自从1953年詹姆斯·沃森博士和弗朗西斯·克里克博士提出脱氧核糖核酸(DNA)结构之后,基因测序成为人们梦寐以求揭开自身密码的钥匙。但是,基因分析需要超强的计算能力,DNA分子由排列成约30亿个精密序列的化学基础组成,即使是单细胞细菌,大肠杆菌的DNA分子也有足以占据整套《大不列颠百科全书》的信息。乔布斯利用基因测序来治疗癌症的案例已经广为流传,但他花费了十几万美元,最终也只是延长了两年寿命。
现在,随着大数据计算的发展,专门从事基因测序业务的23a.n.dMe公司推出了低至99美元的服务。不管你在世界的哪个角落,只需要吐一口唾沫或拔一根头发,邮寄到23a.n.dMe位于加利福尼亚州山景城的实验室里,两周后你就可以从他们网站上查询你的“身体秘密”。23a.n.dMe公司宣布,通过全基因组上超过100万个位点的基因信息分析,他们可以对259种疾病提出患病率的预测和祖先遗传分析,从而提前干预。仅仅在10年前,这项技术却需要耗费惊人的27亿美元,再加上数百科学家13年的时间。不久的将来,诸如23a.n.dMe这样的基因技术公司会越来越多,由此给制药业带来的影响将显而易见,有望实现真正的个性化诊断。
IBM“大数据宝宝”的案例就是其中一个代表。在2010年来中国之前,王晓梅一直待在IBM多伦多实验室里从事传统数据管理工作。在多伦多,有一家全球著名的病童医院,专门收治来自世界各地16岁以下的疑难症病童。王晓梅向本刊记者介绍,在医学领域,如何提高早产儿的存活率一直是医生面临的最大挑战之一。全世界通行的做法是将早产儿放到保温箱里,每隔半小时由护士来记录一次仪器监测数据。但是,早产儿的死亡大多发生在出生后24小时内,因为新生儿的体征表现不明显,加之往往早产儿在病发前几个小时,身体各项指标会表现得特别健康,其实是一种假象。于是,当数据记录发现问题的时候,往往已经错过了最佳的抢救时机。
IBM与这家医院合作,联合安大略省理工学院,共同开发了一套基于大数据技术的新生儿实时监测系统。在早产儿身上贴上传感器,通过它们把表皮以下的体征指数迅速捕捉下来,并且进行实时记录。这样一来,虽然数据量变得庞大了许多,但能够保证数据的准确性与即时性,再通过IBM创造的流计算技术进行实时分析,一旦发现异常,马上介入抢救,大大提高了早产儿的存活率。
美国海军军官莫里(Maury)绘制的航海图,可能是大数据在地图领域的最早实践之一。1839年,他因为马车翻车导致大腿粉碎性骨折,留下残疾,从此离开了海上生活,美国海军任命他为图标和仪器厂的负责人。传统的航海大多是依靠的老船长的丰富经验,他们大脑里有一张隐形的航线图,每次航行还会带回一沓厚厚的航海日志。这些手绘的航线图和日志尘封在库房里,已经积累了数百年。莫里意识到,如果把它们整理到一起,将有可能呈现出一张全新的航海图。他雇用了20个人来整理数据,把整个大西洋按经纬度划分成五块,并按月份标出温度、风俗和风向,最后绘制出一幅标准的航海地图。他把航海图分发给船长们,要求以他们的航海日志为回报,这样他就能够在新航海图上添加更详尽的数据。
2002年高德地图成立时,电子地图刚刚兴起没多久,现在,基于地理位置的服务(LBS)已经成为移动互联领域的主力之一。借助大数据的相关技术,不仅静态的地图服务越来越精准,动态的交通管理也开始走向智能化。
以北京为例,交通拥堵一直是个头疼的问题,很大程度上,是因为信息技术没有充分利用起来,早晚高峰的时候车辆都集中在主干道和环路上,而作为毛细血管的支干道路车辆却比较少。高德交通信息事业部总经理董振宁告诉本刊记者,经过大数据分析发现,即便在北京最堵车的时刻,比如周五的晚高峰,也只有20%的道路发生严重拥堵,另外80%的道路是顺畅的,甚至有的路上一辆车都见不到。如果有一套系统,能够让大家对全市的交通状况实时掌握,就可以及时调整出行路线,大大节省交通时间。
传统的实时交通监测,主要有两种方式,一种是交通管理部门采用的固定监测法,通过架设在路上的摄像头、埋在路面下的传感器,来监测某一地点不同时段的交通流量。另一种是交通广播电台采用的人海战术,他们在全市发动了几千个交通信息播报员,通过他们人工反馈来实时播报交通状况。但是,这两种方式都面临一个问题–覆盖率不高。现在,有了大数据,我们可以换一种思路–干脆把车子当作一个自动的信息员。
高德地图交通信息事业部总经理董振宁向本刊记者介绍,北京现有出租车6万多辆,基本都装有GPS定位设备,主要用于安防和调度,海量的行驶轨迹数据没有充分利用起来。高德与出租公司合作,选取其中的4万多辆,实时共享他们的行驶轨迹数据,这就意味着在北京布置了4万多个移动的检测器。每隔10秒钟到1分钟,出租车会自动把自己的位置信息发回大数据中心,大数据中心就能自动计算每条道路的实时交通流量。除此之外,高德还通过与新浪微博合作,发动网友实时上报交通事件信息,比如哪个地方发生了交通事故,哪个地方正在修路或有交通管制。只要有人在微博提及这些,大数据中心就能实时捕捉到关键信息,并将这些信息发布到高德地图的客户端上。通过基于Hadoop系统的大数据平台,把实时交通流量信息与交通事件信息、红绿灯延时等信息整合,最后得出一个最优的交通路线,并且预测出每条路线准确的交通到达时间。
这套系统从2007年开始,到现在已经覆盖了全国60多个城市,如果再加上社会车辆的反馈,每天会有7000万~1亿公里的行驶轨迹数据发回高德,每隔两分钟就能刷新一次。除了实时的数据分析,高德还需要对过去3个月的历史交通数据进行分析,从而总结出交通拥堵的规律性,为实时预测提供指导。
海量的道路行驶轨迹数据还为地图绘制提供了意想不到的便利。董振宁告诉本刊记者,中国地图产业的规律是强者恒强,因为中国面积巨大,城市发展太快,地理信息变动太多,每年的地图数据至少有30%需要更新,而在国外,这一数据一般不超过5%。如何能够花费最少的成本迅速找出这些变动的信息并进行更新,便成为地图制造商的核心竞争力。有了这些海量的道路行驶轨迹数据,高德就能够做到有的放矢,比如,有一条路线上留下的车辆位置信息越来越密集,但地图上显示这里并没有路,那很可能就是一条新开的道路。“未来,地理位置的信息将像水电一样成为一种基本的生活资源,可以跟购物、休闲、交通安全等领域进行合作,成为人们生活的一部分。”董振宁向本刊记者展望道,“而所有这些,都有赖于大数据的发展。”
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12