大数据时代(1)-别以为自己真的懂 Big Data
最近「大数据( Big Data )」严然变成流行字,感谢科技界的搜索引擎、智能电话、社交媒体等等,由于我们的生活越来越离不开网络,智能手机、平板、电脑……每日透过各项产品连接互联网并使用的资料越来越庞大,形成新的话题。曾经是科技界的新宠儿,现在变成商业界的奇货。谁能掌握在手,谁就能获得更大的商机。
你真的懂得大数据吗?
仔细想想,你真的懂得大数据吗?笔者发现很多人其实都是道听涂说,一知半解。最近 RADICA DATA LAB 早前进行「大数据市场应用调查」,表示教育水平更高者更熟悉大数据。
大数据其实并不是甚么新奇奥秘的玩意,说穿了它就只是 Found Data ,将零散杂乱的各种数据统合分析,从而演算出某些结论、推测以及反应。昔日的数据库是被动的,它要求使用者逐一回馈,像是填写各项问卷、蒐集技术样本等等。
「最可能的答案」而非「最正确的答案」
不论是收集过程、数量以及分析数据都需要花费大量时间,而且往往是针对一些特定主题及目的,数据亦不够全面。然而由于现在电脑及手机的普及,以及网络通讯的流行,实现新的数据收集方式:将大量「数位化资讯」进行演算分析从而「数据化」。即使是普通人也会听闻及发现,为什么手机会知道自己的喜好,搜索时都是将自己常去的网站搬前,显示的广告都是自己有兴趣的,这就是大众所感知到的「大数据」如何影响自己。
大数据有别过去收集数据的方式,它不需要刻版而特定的数据,纵使再零碎不全,都一律交由电脑收集及识别。大众日常于网络上做的每一步活动,都有纪录下来,让有关方面可以因应需要分析用家个人喜好、居住地区、考虑条件、特定浏览时间等等提供「最可能的答案」,而非「最正确的答案」。
大数据重视关连
大数据是违反科学的:科学讲求精确,它却讲求模煳。科学讲求因果,它只重视关连。科学只纪录有用的数据,它却是所有数据都有价值。早于 20 世纪 20 年代 B.Russell 就提出过有关的论文,及后 1965 年 L.A.zadeh 发表模煳集合理论,正式奠定基础。模煳理论实际上是模煳集合、模煳关系、模煳逻辑、模煳控制、模煳量测等理论的泛称。
过去人类尤其是西方科学重精确轻模煳,胡适亦曾撰文<差不多先生传>,崇尚西方学风的他们抨击讽刺中国人特有的「近似推理( Approximation reasoning )」:缺乏科学精神,凡事模棱两可,只要差不多就好。讽刺的是不出数十年,西方科技发展就要学习差不多先生,追求不明确与模煳概念。事实上,模煳理论应用最有效最广泛的领域就是模煳控制。模煳控制出人意料的解决了传统西方理论逻辑无法解决或难以解决的疑难,并取得了一些惊人的成效:大数据就是其中的表表者。
大数据未必百分百正确,但又合乎一般人理解的范围
例如「青年」这个概念,它的内涵大家都清楚明白,但是什么样的年龄阶段内的人是青年,恐怕大家莫衷一是,因为在「青年」这个概念中没有一个清晰确定的边界与外延,这就是模煳概念。人们在认识模煳性时往往带有主观性,每个人对模煳事物的认知不可能完全相同。我们询问一千人他们认知中「年青」的年龄范围,那么我们可能得到一千个不同的答案。尽管如此,当我们用模煳统计的方法对海量数据进行分析时,答案又具有一定的规律性。
大数据就是以相近的塬理运作,假设我们要求电脑在甲城市报告「低收入青年的数量」,这里所说的「低收入」、「青年」都是模煳概念,过去的统计学要先求出「何谓低收入」「何谓青年」的「精确范围」然后才能进行下一步的统计:你要先告诉电脑某个薪金以下是低收入,哪个年龄阶层是青年,然后在资料库指定栏位找符合的条目。然而在大数据时代下,电脑能通过模煳概念去分析判断,演算法会自己跑自己分析「低收入」及「青年」大概的范围,将相关的数据条列出来。它未必百分百正确,但又合乎一般人理解的范围。
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21