大数据时代 “脏数据”无处不在且危害大
数据时代已经到来。大数据的应用层出不穷,正改变着公共决策、企业管理、市场营销以及生活的方方面面。我们知道,大数据要发挥作用,有一个前提就是数据是好的数据。所有数据都是好的么?当然不!因此大数据时代还需警惕“脏数据”。什么是“脏数据”呢?简单来说,就是那些虚假的数据,那些未能反映真实情况、扭曲了真实情况的数据。
那么,“脏数据”是怎样形成的呢?
KPI、利益诱惑
导致主动弄脏数据
淘宝卖家信用等级制度是一个很好的创新,推动了诚信网络购物环境的构建。信用的等级主要依据是交易成功后买家的评分。由于信用等级在买家购物时有着巨大的指导作用,所以卖家都颇为重视自己的等级。这也导致该制度从诞生的第一天起就伴随着“脏数据”。部分卖家挖空心思、弄虚作假争取高的等级:有的采用虚假交易的方式,自己卖给自己,然后给予这次交易较高的评分;“刷信用”、“刷钻”俨然成了一门生意,有不少专门做这个生意的网站;职业差评师也应运而生,很多恶意买家专门以给网店差评为手段向网店店主索要钱财。
微博粉丝数体现了一个人的影响力,同时也具有商业价值。这里也有“脏数据”——僵尸粉,即虚假粉丝、永远沉默的粉丝。自己可以注册多个微博来关注自己;花钱也可以买到“关注”,这些粉丝通常是由系统自动产生的恶意注册用户。
终端销售的代理商为了套取运营商的佣金,用一个虚拟的串号录入系统,自己卖给自己;电信业务销售代理商为了完成运营商下达的任务量,将手机号卡从系统里开出来囤着,放在抽屉里慢慢卖。这些,都能产生巨大的“脏数据”。
能力不足
不可避免地弄脏数据
人为的非故意的差错也会导致数据失真。比如要人为地去统计某个营业厅一天的人流量,若这流量成千上万,即使再细心的工作人员,在数的过程中也难免出现差错;如果这个人本身的算术能力有问题,对100以上的数字计算不过来,那么这数据就更难准确;更有甚者,在数了半天后觉得这工作实在枯燥无聊,于是开了小差,最后虚报了一个估计的数字。
无论是主观故意,还是客观能力,是人都会出错。那计算机就不会出错么?计算机同样会出错,且计算机出错的新闻比比皆是。比如在银行ATM机上取1千元,然后吐钞1万元。一方面,这取决于计算机编程人员对计算规则的理解;另一方面,这还依赖于计算机程序编写人员的能力与细心,若出现编程人员的理解偏差或者编程时未想象到的情形,计算就可能出错。
“脏数据”无处不在且危害大
当数据使用者将“脏数据”当作好数据,加以分析利用,作出决策,并辅以强有力的执行时,“脏数据”带来的后果是极其严重的。通过“脏数据”,会得出错误的结论,错误的结论会导致错误的决策,错误的决策加上强有力的执行,比没有数据、没有结论、没有决策更糟糕,不但不会对事物发展起到积极作用,甚至还可能产生消极作用。
举两个简单的例子,如果购买了上述刷来的黄钻卖家的产品,你可能会觉得名不副实;如果付费找拥有大批僵尸粉的大V来传播商业信息,你的钱可能就会打水漂;如果运营商无视套取酬金及囤卡行为而对销售数字津津乐道并为此乐观的话,不仅让酬金白费,还会得出市场发展良好的错误结论并采取下一步措施。
“脏数据”无处不在且危害之大,因此必须要警惕“脏数据”。当然,这不是一概否定大数据,不是说大数据毫无价值,而是想提醒大家一方面要尽可能提高数据质量,另一方面也不能完全依赖大数据。
无论是淘宝、新浪,还是电信运营商,都对数据造假者深恶痛绝,都想出了很多办法来消除“脏数据”。显然,这是道与魔的关系,是一个不断纠缠、不断提升的过程。没有任何一种制度或者技术能百分百消除“脏数据”,但只要态度明确并不断采取措施,就能将“脏数据”控制在一定程度,确保所用数据偏离不会太多且具有使用价值。
大数据不是万能的,伴随着“脏数据”的大数据更不应该被迷信。大数据的使用还需要与经验、实证相结合。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31本人基本情况: 学校及专业:厦门大学经济学院应用统计 实习经历:快手数据分析、字节数据分析、百度数据分析 Offer情况:北京 ...
2025-01-3001专家简介 徐杨老师,CDA数据科学研究院教研副总监,主要负责CDA认证项目以及机器学习/人工智能类课程的研发与授课,负责过中 ...
2025-01-29持证人简介 郭畅,CDA数据分析师二级持证人,安徽大学毕业,目前就职于徽商银行总行大数据部,两年工作经验,主要参与两项跨部 ...
2025-01-282025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-01-27在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-01-26数据指标体系 “数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而 ...
2025-01-26在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-25俗话说的好“文不如表,表不如图”,图的信息传达效率很高,是数据汇报、数据展示的重要手段。好的数据展示不仅需要有图,还要选 ...
2025-01-24数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪70 ...
2025-01-24又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-23“用户旅程分析”概念 用户旅程图又叫做用户体验地图,它是用于描述用户在与产品或服务互动的过程中所经历的各个阶段、触点和情 ...
2025-01-22在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-22在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09