大数据真的不需要人为干预吗?
关于“大数据”你一定听滥了,但也没搞明白究竟是怎么回事。尽管你无时无刻不在感受到它带来的“某些”便利:
比如一周前你在某个社交网站上做面试测试题,当你面试完时才知道,那份测试题真正的意图是匹配你与团队性格的契合度有多高。又如,在十一黄金周前你接到某个购票应用推送的信息,上面提示你提前16天通过电话订火车票,要比同日在网上购票成功机率高。当你真的打过去时,发现电话预订系统正处于繁忙状态,而不得不等了2小时后再致电,才订票成功。但好过同一时刻被卡在12306网站上而付不了款。
大数据正在渗透各行各业,甚至能跟你考试能力测试、患上某种疾病的机率等非常生活化的场景应用都发生紧密的联系。今后大数据在我们的生活中就像是水和电一样,让社会整个信息质量更好、让信息利用效率更高效。
在这个系统中,数据的采样与后期分析仍需要靠人为力量去完成。
众包让数据采样更自动化
“今后人工干预会越来越不必要,至少在前端采集数据是这样。”产品经理James向腾讯科技谈到,现在很多数据的采集都来自与用户的交互行为,比如搜索、微博互动、又比如“喜欢”、“赞”、“丢掉废纸篓”这类在应用中小的设计,只要用户主动完成,在后台便可推算出数据质量。
洋葱价格的高涨起落决定了印度通货膨胀率的趋势,一家名为Premise的创业公司,每天通过700多个安装了自己开发应用的用户来实时上传各地区的不同洋葱零售价格。
该公司的联合创始人大卫-斯洛夫(David Soloff)认为,这是一种能够实时感知全球金融动态的有效渠道,因为当地商店一般都会根据经济环境的变化(其中包括批发价格和消费者信心等因素)及时调整商品售价。
“Premise所提出的分析方法已经证明,根据自己所收集的数据在部分经济环境中提前4-6周给出通胀指标预测。大家完全不必再等待此前那种每月一次的‘经济天气预报’了。”斯洛夫强调。
而对零售门店来说,货架上品牌的陈列直接决定着销量,如何让品牌在流动的顾客中一直占据较好的陈列位置,让这项工作既需要耗时耗力,也非常琐碎。
为此一家名为Quri的公司,通过开发一款名为EasyShift的应用,让用户有偿贡献时间去精力去完成这项数据的收集。用户只要领取应用下达的任务,在指定的地点拍指定场所的照片,上传到Quri的服务器上,便可领取相应微薄的报酬。
EasyShift的理念不难理解:现在大多数用户都随身携带智能手机。品牌商想要了解自己的商品在大型零售店的展示情况、评估竞争对手的动态、报告断货的产品和定价信息、监测促销和产品发布情况。EasyShift向消费者付费,让他们在购物时顺手收集这些信息。
在日本大地震中,意外地运用了某汽车品牌车载导航实时的可视化数据,打通“绿色生命通道”的项目“连接生命线”。
该项目负责人菅野熏是日本电通创意设计中心高级总监,在日本大地震前他接受了某汽车品牌的合作项目。该项目为在某路段行驶了哪一辆车,什么时间行驶,位于哪个经纬度,以多快的速度朝哪个方向行驶等,每分钟大约有十万条的动态数据都会记录在一个车载导航数据库中,菅野熏将这些数据集成一个程序内,并以日本地图的形式展现出来。
在日本发生地震时,这些导航数据都能临时派上用场。
“地震时,通讯信号都不太畅通,人们只能够通过网络确认亲人朋友是否平安,我们所面临的挑战就是如何将救援队去送往灾区。”菅野熏说道。
导航数据本来用于交通拥堵情况而搜集车辆的行驶数据。“从另一个角度来说,有车辆行驶的数据说明,道路是可通过的。”菅野熏谈到,地震后一旦有车辆行驶,就用绿色去进行标注,形成一条通行轨迹。
与此同时,团队还在Twitter上实时组织用户去发布目前全日本各地路况与路标信息,综合两类信息后,将绿色生命通道数据于地震发生20个小时后发布在网上公开下载。除了网页端外,编程人员也快速开发了移动端。在当时的危机之下,信息扩散的力度是极快的,很快在在网站和手机应用中,多条绿色的线路都逐一呈现,为救援队快速到达提供了参考。
大数据时代人工干预仍有必要
机器学习在大数据中确实占据主导作用,但真的不需要人为干预吗?例如,你已经习惯泛滥在身边网络营销,但你真的认可靠单纯的数学模型与规模数据分析的营销推荐吗?
ZestFinance是一个利用机器学习加大数据分析为payday loan行业(发薪日贷款,类似高利贷的短期高利息借款)提供客户品质分析的平台。
与传统的分析方式不同,ZestFinance可同时运营多个模型对海量数据进行分析来判断各种可能性,再加上越来越多的数据来源和种类,然后这些信息被转化为几万个可对借贷者行为做出测量的指标,如诈骗几率、长期和短期内的信用风险和他的偿还能力。最后各模型的结果被整合成最终结果。这个平台可在几秒间为用户提供最可靠的结果。创始人Merrill说:“我们更倾向于通过把机器学习机制和人工干预结合到一起。”
例如在医疗领域,机器学习基础上的数据分析就远远不够。“因为机器学习能推算出一定比例的概率,但无法达到精确、精准。”春雨掌上医生CTO曾柏毅向腾讯科技举例,如对于某种疾病模型的设计,是通过调取现有数据库中所有相似度90%以上提问,将问题结果分析汇总,制作疾病发生概率模型,并将每个问题医生的建议,总结出“无大碍”和“去医院“比例,为患者提供直观的数据参考。
“但这也是取一定比例的概率,是用于用户自查。可是否能精确到病人真的符合这种病症,还是需要人为分析(医生诊断),我们这些在后台的数据分析员也要去再排查、甄别数据的准确度。”上述人士谈到。
数据分析咨询请扫描二维码
基础课程 统计学基础 - 统计学是数据分析的基石,包括概率、假设检验、回归分析等基本知识,有助于理解数据背后的意义。 - ...
2024-11-26数据分析是一门综合性学科,涉及多个领域的知识和技能。要全面掌握数据分析,需要学习以下内容: 基础课程 统计学基础:统计学 ...
2024-11-26数据治理工程师在当今信息时代扮演着至关重要的角色,负责确保组织内数据的质量、安全性和可用性。他们需要具备一系列技能和才能 ...
2024-11-26在当今数字化时代,数据被誉为新的石油,是企业最有价值的资产之一。因此,建立有效的数据战略规划对于企业的成功至关重要。数据 ...
2024-11-26<section id=
2024-11-26《Python数据分析极简入门》 第2节 8-1 Pandas 数据重塑 - 数据变形 数据重塑(Reshaping) 数据重塑,顾名思义就是给数据做各种变 ...
2024-11-26统计学基础 - 理解统计学的基本概念和方法是数据分析师必备的技能之一。统计学为他们提供了处理数据、进行推断和建模的基础。 数 ...
2024-11-25数据分析师在如今信息爆炸的时代扮演着至关重要的角色。他们不仅需要具备扎实的数据分析技能,还需要不断学习和适应不断发展的技 ...
2024-11-25数据分析师的工作职责涉及多个关键方面,从数据的获取到处理、分析再到可视化,旨在为企业的决策提供有力支持。让我们深入了解数 ...
2024-11-25数据分析师:洞察力量的引擎 数据分析师的兴起 数据分析师行业目前正处于快速发展阶段,市场需求持续增长,薪资水平也有所提升。 ...
2024-11-25数据收集与整理 - 从各种来源收集数据,清洗和整理以确保数据质量和可用性。 数据分析与建模 - 运用统计学方法和机器学习模型对 ...
2024-11-25数据分析是当今社会中不可或缺的一项技能,涵盖了广泛的工具和技术。其中,掌握各种数据处理函数对于数据分析师至关重要。本文将 ...
2024-11-25“大数据治理”是一个涵盖广泛的复杂概念,其核心在于确保大规模、多样化的数据资源能够被有效管理和利用。不仅涉及数据的采集、 ...
2024-11-25一、引言 背景介绍 随着信息技术的快速发展和互联网的普及,大数据已经成为现代社会的重要资产。大数据的兴起不仅推动了各行各业 ...
2024-11-25《Python数据分析极简入门》 第2节 7 Pandas分组聚合 分组聚合(group by)顾名思义就是分2步: 先分组:根据某列数据的值进行 ...
2024-11-25数据分析需要学习的内容非常广泛,涵盖了从理论知识到实际技能的多个方面。以下是数据分析所需学习的主要内容: 数学和统计学 ...
2024-11-24数据分析师需要具备一系列多方面的技能和能力,以应对复杂的数据分析任务和业务需求。以下是数据分析师所需的主要能力: 统计 ...
2024-11-24数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。以下是根据我搜索到的资料整理出的数据分析师需 ...
2024-11-24《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23