大数据三问:大数据“热”的冷思考
大数据概念的形成和发酵,在当今社会引发了人们无限的遐想和期待,也受到普遍的欢迎和推崇,甚至有人不断编造出关于大数据无所不能的种种现代神话。这种令不少人癫狂、着迷的东西是否真的“法力无边”,我们不妨试发三问。
大数据的特点在“大”,是否越大越好?
回答是不一定。
人类对世界的认识,首先是感知信息。但问题在于,人类许多方面的感知能力却不如普通动物,比如人的嗅觉不如狗,听觉不如猫,视觉不如鹰等等。
难道高级动物竟然比不上低等动物?显然不是。奥秘在于人类相对普通动物而言,长处在思维。思维之花乃是生物进化的杰作,人类凭借思维之利器,便可以通过科学技术手段,根据需要延长自身的器官,最后实现各方面能力都远在一般动物之上。在此过程中,关键是计算机技术的发展,得以替代人的部分逻辑思维,能够进行大规模数据的快速处理,从而使得我们在面对大数据时,不至于心怀畏惧。
20世纪以来科技领域看起来硕果累累,但真正具有颠覆性意义的发现却如凤毛麟角,甚至不及19世纪。问题何在?数字化的数据固然有利于从中发现规律,但这类数据在整个大数据库中所占份额极小,何况还有一个鱼龙混杂问题。至于那些尚未数字化的数据,尤其是那些似是而非、众说纷纭的数据,显然并非越多越好。
事实上,就人类认识而言,也有减材加工与增材加工两种方式。毛泽东在《实践论》中所说的去粗取精、去伪存真、由此及彼、由表及里的认识过程,其实就是讲的真理性认识有增有减的过程。当年第谷观察天象,所做工作就是增加数据;而开普勒总结天体运行规律,所做工作则属删繁就简。如果说数据的增加意味着真理性认识的增加,那么数据的减少则意味着真理性认识的深化和升华,何尝不值得我们同样为之喝彩?
大数据 的亮点在“数”,是否万物皆数?
回答是不可能。
数字的发明,是人类抽象思维能力发展的产物。而发现数字之间的某些关联,曾经更使人类欣喜若狂,毕达哥拉斯甚至据此作出了“万物皆数”的断言。大数据之所以吸引人们眼球,噱头就在“数”上,似乎一切化归于数,就可万事大吉,适合数字化生存的时代要求了。
应该看到,世界在演化的进程中,特别是生命体和人类社会诞生后,正负二分的表征法就变得越来越不适用了,无论是模拟仿真技术的兴起,还是复杂化方法的运用,都说明这种建立在非此即彼的认识论基础上的进位法,其实是形而上学思维方式在信息时代的反映。
由此可见,所谓的数据其实有两类,一类是可以实现数字化的数据,人类可以轻而易举地将它的处理任务付之电脑,进而从中发现规律、把握规律。而另一类不可数字化或者说很难实现数字化的数据,则还是必须依靠人脑的判断与解读。1948年美国的“驴象”之争中,盖洛普的配额抽样方法以及其他民意调查机构之所以遭遇“滑铁卢惨败”,就是因为过于迷信数据,而这种建立在数字基础上的所谓“科学”方法,其实经实践检验后被发现并不科学。过去这些年来,定量评估在世界各地盛行,人们动辄以各式各类指标体系肢解复杂事物和系统,最后闹出许多笑话,正说明现代的数字崇拜照样是此路不通。
大数据的基点在“据”,是否据实逼真?
回答是不见得。
信息技术的推广应用同样是一把双刃剑,它在为人们提供无限便利的同时,也为数据造假及其传播洞开了方便之门。据《环球科学》2014年12月载文,生物科技风投资本家有一个经验法则:一半公开发表的科研成果都无法复制,这还是最乐观的估计。2012年,生物科技公司安进发现,在关于癌症研究的53项重大成果中,只有6项可被复制。稍早前,拜耳制药公司的一个团队重新开展了67篇有重要影响的论文所做过的实验,最终成功的却只有四分之一。本世纪最初10年,应用于临床的研究专利大约有8万份被撤销,因为它们都是错误的。
面对如此庞大的虚假数据,你还会相信大数据即未来石油的神话吗?美国科学计量学家普赖斯曾在上世纪50年代就得出科学知识呈指数增长的结论,其依据是各国期刊文献的数量增长。此后,有关知识爆炸的说法甚嚣尘上。现在回头看,普赖斯的判断未免草率,因为期刊文献数量与人类知识量显然是不能画等号的,否则就会得出撤销某些期刊就是限制知识增长的荒唐结论。
总之,科学的发展在深刻改变人类生产生活方式的同时,也制造了许多令人目不暇接的神话。当泥沙俱下且呈雪崩式的大数据袭来时,我们更应保持一个清醒的头脑,用中国的古训来说,就是要防止以目废心。
数据分析咨询请扫描二维码
在当今数字化时代,数据已成为推动经济和技术发展的关键因素。企业和机构对数据科学与大数据专业人才的需求急剧增长。该领域涵盖 ...
2024-11-16金融数学是一门充满挑战和机遇的专业,它将数学、统计学和金融学的知识有机结合,旨在培养能够运用数学和统计方法解决复杂金融市 ...
2024-11-16在信息时代的浪潮中,大数据已成为推动创新的重要力量。无论是在商业、医疗、金融,还是在日常生活中,大数据扮演的角色都愈发举 ...
2024-11-16在快速演变的数字时代,数据分析已成为多个行业的核心驱动力。无论你是刚刚踏入数据分析领域,还是寻求进一步发展的专业人士,理 ...
2024-11-15Python作为一种通用编程语言,以其简单易学、功能强大等特点,成为众多领域的核心技术驱动者。无论是初学者还是有经验的编程人员 ...
2024-11-15在当今数据驱动的世界中,数据分析已成为许多行业的基础。无论是商业决策,产品开发,还是市场策略优化,数据分析都扮演着至关重 ...
2024-11-15数据分析作为现代商业和研究领域不可或缺的一部分,吸引了越来越多的初学者。然而,自学数据分析的过程中,初学者常常会遇到许多 ...
2024-11-15在当今的数据驱动世界中,机器学习方法在数据挖掘与分析中扮演着核心角色。这些方法通过从数据中学习模式和规律来构建模型,实现 ...
2024-11-15随着数据在各个行业的重要性日益增加,数据分析师在商业和技术领域的角色变得至关重要。其核心职责之一便是通过数据可视化,将复 ...
2024-11-15数据分析师的职责不仅仅局限于解析数据和得出结论,更在于将这些复杂的信息转换为清晰、易懂且具有影响力的沟通。良好的沟通能力 ...
2024-11-15数字化转型是企业提升竞争力和实现可持续发展的关键路径。面对快速变化的市场环境,以及技术的飞速发展,企业在数字化转型过程中 ...
2024-11-15CDA数据分析师认证:CDA认证分为三个等级:Level Ⅰ、Level Ⅱ和Level Ⅲ,每个等级的报考条件如下: Le ...
2024-11-14自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就 ...
2024-11-14数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14在当今高速发展的技术环境下,企业正在面临前所未有的机遇和挑战。数字化转型已成为企业保持竞争力和应对市场变化的必由之路。要 ...
2024-11-13爬虫技术在数据分析中扮演着至关重要的角色,其主要作用体现在以下几个方面: 数据收集:爬虫能够自动化地从互联网上抓取大量数 ...
2024-11-13在数据分析中,数据可视化是一种将复杂数据转化为图表、图形或其他可视形式的技术,旨在通过直观的方式帮助人们理解数据的含义与 ...
2024-11-13