有关大数据 你不一定知道的几个冷知识
大数据的隐秘魅力就在于,他比你都了解你。你以为你每次按下手机按键的动作都是一样的吗?哈哈图样图森破。
来自今日头条的技术副总裁杨震原告诉童鞋们,他们正在测试的“黑科技”,恰恰能从你点击按键的时间和手指面积,推测出你当时的情绪。你的漫不经心、愤怒或者感动,都能够成为后台为你推送何种消息的依据。未来,如下场景可期:
如果你正处在被女神甩掉的悲伤中,也许客户端会为你推送——搞基的一百种好处。如果你正处在领到本月工资飘飘欲仙的快乐中,也许客户端会为你推送——在北京月两万何时能买一个厕所?
那么这种“恰到好处“的情绪拿捏和大数据有什么关系呢?实际上对你情绪的推测是建立在对你多次正常点击的记录之上的。这种行为数据甚至在你还未意识到的时候,就“出卖”了你的情绪。
今日头条技术副总裁杨震原在分析一个按钮的平均触摸时间
你的“姿势”,才是真的大数据
银行每天的交易账目流水的统计数据,并不是大数据,而每个用户在拿号之后等待了多久才排到,有多少用户骂娘,有多少用户过于焦急愤而离去,这些真正的行为才是大数据。
杨震原又举了今日头条在应用中的另一个例子。
实际上,你在一篇文章的什么位置停留多久,然后划动了多远,在新的位置停留了多久,是否看了评论,看了几条评论,都可以按顺序被记录下来。接下来就是通过算法评估读者的兴趣所在。
CSDN创始人蒋涛也特别提到,美国电商平台Wish正是用大数据的方法,根据每个人的数据不同,“看人下菜碟”地推荐你可能喜欢的货品,三年时间已经发展成北美最大的电商之一。
所以,一个悲伤的消息是:未来如果你要隐藏自己的身份,不仅仅要变装易容伪造指纹,甚至连点击手机,查看文章的习惯都要改变了。
大数据就是:一个都不能少
如果要想知道有多大比例的人喜欢GV,那么只需要做好抽样调查就可以了,没有必要对所有人进行调查。但是如果你想要推销宅腐的周边智能硬件产品,则需要逐个排查每个人“独特”的兴趣爱好。
所有数据一个都不能少,这就是所谓的“全量加工”,这些数据的制造者正是各大厂商利润的源泉。
360商业产品首席架构师刘鹏是一名网红,他在很多场合都强调:全量加工才是大数据。他说,涉及到个性化推荐、计算广告、个人征信这些场景,大规模的计算就是无法避免的。
从技术角度来说,之所以大数据可以做到这么精准,也主要得益于技术的进步。感知设备被丰富地用在五花八门的硬件上,使得以前无法记录的数据,现在都可以被记录了。
大数据不应该给人用
大数据应该交给机器做决策,而不是交给人做决策。
这种洋溢着对人类深深不信任感的论断同样来自于刘鹏。在他眼中,大数据是为机器提供的食粮。而能够驾驭大数据的人类基本只有两种:数据科学家和统计工作者。
IT企业中养一群科学家的可能性为零。而人类的判断往往基于宏观、战略,不可能有精力做到“因事而异”。相比之下机器的判断比人类更加细致。比如为每个用户比如画像、贴标签。所以,要想把大数据利用透彻,愚蠢的人类还是暂时靠边站吧。
“有点错误”的大数据更好用
“数据”这两个字,天然给人一种完美而且精准的感觉。在这方面,大数据要挑战你的底线。作为数字广告领域的大牛,刘鹏强调,大数据可以存在半一致性这样模棱两可的属性。换句话说,允许数据错误和丢失。
纳尼?错误的数据也是好数据吗?没错。由于数据量巨大,而且分析半天往往没什么有用的收获(价值密度低),分析者往往需要选取一些特征数据做加工,而对于这些特征数据,也许还要简化之后再加工。所以最终大数据要达到的结果是难得糊涂,却一针见血。
所以,如果有人向喜爱人民网的你推荐草榴的时候,先不要发火,你可能只是大数据的一个错误罢了。
保险公司最喜欢和大数据在一起
如果你是一个鲁莽的人,最想知道这个情况的无疑是你的汽车保险公司,想必你的保费会居高不下;如果你是一个谨小慎微的人,最想知道的也是保险公司,因为它可以用打折的保费吸引你投保。
在你身上,甚至存在一个精确的“岀险率”数字。这个听上去很惊悚的数字恰恰是保险公司利润的来源。因为不掌握这样大数据的个人,是无法计算自己的岀险率的。保险公司恰恰利用这种信息不对称,给一个岀险率是万分之一的人开出了千分之一的保价,相当于赚了十倍的利润。
隐私问题要靠技术改进
数据比它看上去的样子更险恶,这是大数据业内人士的普遍共识。即使隐去了你的姓名电话等等敏感信息,只保留你和其他人联系的记录,熟悉你的人完全可以猜到你的身份。目前大数据的安全性,在他人的恶意之下,显得力不从心。
隐私问题,制度只能解决20分,剩下的80分要靠技术进步来解决。
刘鹏如是说。期待市场倒退到前大数据时代,似乎没有希望了。
如何精确统计出有多少人喜爱苍井空,有多少人喜欢武藤兰,但是又不泄露到底是谁喜欢苍老师,谁喜欢武老师,这是目前大数据的最前沿研究。
有关大数据的政策再严格,没有一套可靠的保密技术,数据的安全都是无从谈起的。隐私算法、数据脱敏、数据隔离。都是研究的方向。在此之前,各位的大数据还都在相对危险的状态。这也是为什么目前法律没有禁止数据买卖,而各大巨头却不敢将数据出售的原因。 当然,大数据库市场价目前比较低也是一个重要的原因。
SDCC,中国软件开发者大会。由全球最大中文IT社区CSDN于2007年创办,每年一届。主题是下一代软件开发技术趋势与对各行业的深刻影响,以谈干货实料著称。
数据分析咨询请扫描二维码
数据收集与整理 - 从各种来源收集数据,清洗和整理以确保数据质量和可用性。 数据分析与建模 - 运用统计学方法和机器学习模型对 ...
2024-11-26技术技能 - 编程能力: 数据分析师需要掌握至少一门编程语言,如Python、R或SQL。这些语言对于数据处理、建模和分析至关重要。例 ...
2024-11-26数据分析领域涵盖多样性岗位,根据工作职责和技能需求划分。这些角色在企业中扮演关键角色,帮助组织制定战略、优化流程并实现商 ...
2024-11-26数据分析是一种通过收集、处理、解释和展示数据,以获得见解和决策支持的过程。这个领域涉及使用统计学、计算机科学和商业智能等 ...
2024-11-26数据分析领域正日益成为当今商业世界中不可或缺的一环。随着数据量的爆炸式增长,企业越来越需要能够从这些海量信息中提炼出宝贵 ...
2024-11-26数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。在追求这一职业道路上,合适的教育和培训至关重 ...
2024-11-26数据分析师作为当今信息时代中关键的职业之一,扮演着解释、预测和推动决策的重要角色。他们需要多方位技能来处理各种复杂的数据 ...
2024-11-26数据分析师在今天的商业环境中扮演着至关重要的角色。他们需要应对各种复杂的数据分析任务和业务需求,这要求他们具备广泛的技能 ...
2024-11-26在当今快速变化的技术和市场环境中,数字化转型是企业利用数字技术全面重新设计和改造业务的重要过程。这一转型旨在通过整合云计 ...
2024-11-26数字化转型: 是企业在现代技术和市场环境不断变化的背景下,利用数字技术对其业务进行全面的重新设计和改造的过程。其核心目标是 ...
2024-11-26理论基础与高级学习 数学专业理论基础: 学生首先需要掌握数学的基础理论,包括数学分析、高等代数、几何学、常微分方程、实变函 ...
2024-11-26数字化转型:现代企业蜕变的引擎 数字化转型已然成为当今企业持续发展的关键支柱。这一过程并非简单的技术升级,更是涉及企业文 ...
2024-11-26# 数据科学与大数据技术专业学什么?就业前景与行业需求 **数字化转型:引领企业进步的关键** 数字化转型是现代企业发展的必经 ...
2024-11-26理论部分 - 基础数学理论: - 学生首先需要掌握数学的基础理论,包括数学分析、高等代数、几何学、常微分方程等。 - 这些课程 ...
2024-11-26在选择数据科学和大数据技术专业时,了解不同领域的职责和技能需求至关重要。数据治理工程师是这一领域中不可或缺的角色之一,承 ...
2024-11-26基础课程 统计学基础 - 统计学是数据分析的基石,包括概率、假设检验、回归分析等基本知识,有助于理解数据背后的意义。 - ...
2024-11-26数据分析是一门综合性学科,涉及多个领域的知识和技能。要全面掌握数据分析,需要学习以下内容: 基础课程 统计学基础:统计学 ...
2024-11-26数据治理工程师在当今信息时代扮演着至关重要的角色,负责确保组织内数据的质量、安全性和可用性。他们需要具备一系列技能和才能 ...
2024-11-26在当今数字化时代,数据被誉为新的石油,是企业最有价值的资产之一。因此,建立有效的数据战略规划对于企业的成功至关重要。数据 ...
2024-11-26<section id=
2024-11-26