大数据处理应遵循的四大原则_数据分析师培训
信息革命将人类带入一个革命性的“大数据时代”,人们通过电脑网络,利用数据分析、数据集成、数据设计、数据模型、数据决策和数据虚拟化等手段,针对具体的认知对象,对反映其数量、性质、结构、功能、价值、前景等方面的数据,进行全面的收集、整理、分析、综观和萃取,然后作为决策和实践的根据。由此,使人类的认识变得更精确系统、更全面广泛、更快速有效。然而面对各种数据源收集来的海量数据,究竟如何对其进行归类、计算、建模和解释,却需要高超的智慧。因数据本身始终沉默,需要依赖能动的认识主体的赋予。为此,本文想就大数据处理应遵循的几条原则给予阐释。
一、简约原则
这是牛顿创设的一条“极简主义”的节约规则。在牛顿看来,神奇的自然界在创设过程中选择的简单性和对繁琐的讨厌,使得人类也形成如下观念:“在用很少的东西就能够解决问题的情况下,决不劳力费神和兴师动众”;要始终体现大自然所遵循的简约性、精准性、合理性与有效性。欲达此目的,就需要在云计算或大数据处理中,遵循简约原则,选择有用数据,淘汰无用数据;识别有代表性的本质数据,去除细枝末节或无意义的非本质数据。要能够确识数据之间的巨大差距或差异;要能够鉴别和挑出那些“以一当十”的数据和信息。这种简约原则在大数据的收集、挖掘、算法和实施中的最有效途径,就是对“数据规约”的运用。所谓数据规约就是简化现有的数据集,使得一种小规模的数据就能够产生同样的分析效果。常用的数据规约策略有数据立方体聚集、维规约、数据压缩、数值压缩、离散化和概念分层等,而常用的数据规约方法则主要包含粗糙集、遗传算法、主成分分析、逐步回归分析、公共因素模型分析等。运用这些规约方法,就可以获取可靠数据,减少数据集规模,提高数据抽象程度,提升数据挖掘效率,使之在实际工作中,可以根据需要选用具体的分析数据和合适的处理方法,以达到操作上的简单、简洁、简约和高效。具体地说,当一位认知主体面对收集到的大量数据和一些非结构化的数据对象,如文档、图片、饰品等物件时,不仅需要掌握大数据管理、大数据集成的技术和方法,遵循“简约原则”和“数据集成原则”,学会数据的归档、分析、建模和元数据管理,还需要在大量数据激增的过程中,学会规约、选择、评估和发现某些潜在的本质性变化,包括对新课题、新项目的兴趣和开发。
二、综观原则
所谓综观,就是对认知对象进行综合性的观察、分析和探索;就是从总体上对认识对象、认识过程和认识结果进行抽象、概括或直觉,并通过具体的信息数据超越那涵盖于总体性中的局部或个别。这种综观既针对构成事物之个体的全部,也针对构成事物的诸要素组成的统一体,以及总体上显现的本质和规律。综观较整体观察更加辩证。它坚持从大处着眼,从总体上去“观其状,求其法,探其道”,以求得解决问题的策略和战略。它坚持整体的具体统一性,凸显认知对象的具体实在性。至于现实中,人们究竟如何对具体的认知对象进行综观,这里需要借助与综观紧密相关的大数据集合的理论与实践。因为大数据集成,既包括对存贮在结构化数据结构中的数据进行移动和集成,也包括对一大部分非结构化数据中的数据进行移动、调节和集成。比如面对复杂的信息和数据,人们就可以将“云架构、实时数据集成、数据虚拟化、数据集成建模”等先进技术用到具体问题的解决中,使用一种根据大数据制作的“可预测模型描述语言”(pmml),为其提供一种快速简便的程序和模型。此时,通过使用标准的xml(可扩展标记语言)解析器对pmml进行解析,应用程序就能够决定模型输入和输出的数据类型,及模型的详细格式,并会按照标准的数据挖掘术语来解释模型的结果。通过对大数据的综观、模型化和虚拟化,可以做到花最小气力,获最大效益。特别是数据虚拟化,不仅可以为数据使用者提供极具真实性、完整性和精准性的“实时集成的数据视图”,还可以将来自不同数源的数据信息整合为一,并转化成使用者所需要的图式和模型。因为有些对象,绝不是仅仅用数字就可以解释和认知的,比如人类复杂多变的面部表情,就很难用单纯的数据给予精确表达,只有通过数据集成、智能技术和虚拟技术将大数据虚拟化,使反映认知或实践对象的海量信息和数据,变成一种实时图像或视频供主体观察研究,他们才可能从中获得相关的认识、结论和决策。
三、解释原则
尽管数据集成、数据建模、云计算和数据虚拟化是大数据处理的一些主要形式,能够给认知主体以质、量和度等多方面的总体性的形象和认识,但面对“不能言语”的具体的数字、信息、图像和虚拟视频,还是需要认知主体进行能动的和创造性的解读与阐释。这不只因为包括数字、数码、文字和一切符号在内的语言“是存在的故乡”,[CDA数据分析师培训]即要认识客体或对象,总是需要利用语言给予建构、包装、说明和解释,还因为一切语言自身所拥有的价值和意义,也需要使用它和阅读它的主体所“赠予”。换句话说,这些摆在人们面前的大数据,究竟表达什么或意味什么,很大程度上,并不取决于由数据信息自身所标明的“客观实在性”,而是主要取决于认知主体对其解读时所拥有的整体上的解释力、构建力和知解力,取决于由数据构架起来的理论形态和实践目的。因为只有通过人的感悟、觉识、分析、推理、判断和阐释才能够赋予数据和信息以多重的或异乎寻常的结构和意义,才能够由表及里,揭示出深藏于内的隐蔽之物;进而通过各种解释之间的矛盾和冲突,获悉被解释的存在和本质。
四、智慧原则
尽管信息革命将人类带进大数据的春天,而且使越来越多的人确信“数据多多益善,即数据越多,分析越深入,所得的结论就越全面”,但面对“僵死的数据”,要想点石成金,还需依赖于人的智慧和学识。为此,在大数据处理过程中,真正的智者既要兼具数据分析、机器学习、数据挖掘以及数据统计的能力,也要具备应用算法和编写代码的经验。尤其是面对琳琅满目的大数据,不仅要关注海量数据的多样性、差异性、精确性和实效性,否则缺少其中任何一个性能,都可能使所获数据达不到预期的效果和目标;还要全面深入地挖掘各种类型的数据,并在此基础上运用数据建模和数据算法在不同的数据集成中分析不同的假设情境,建构不同的可视化图像,进而揭示数据集成的变化及其产生的效用。特别是今天,面对激烈的社会竞争,必须不断寻找新的数据处理方法,不断加快数据处理速度。要意识到各种数据都并非生而就有价值,只有通过主体智慧的挖掘,才能将其变为现实。
此外,还要善于从数据集成、数据建模和数据虚拟化中发现和解决问题;提升自己观察、思考、批判和扬弃的能力;锤炼自己的理性思维和逻辑思维;培养自己统筹决策、高瞻远瞩、见微知著的预见力和洞察力。当然,在大数据时代更需要掌握对已有的数据模型进行精练,以及利用新的训练数据对原有内容和规则集进行修改、操作和运行的技艺。在此过程中,要尽可能做到思想活跃,思维清晰,头脑开放,认识深远,能够不失时机地打破陈规旧套,抓住新机遇,尝试新途径,开辟新天地,以多元智能的理念来认知和实践,以便在大数据处理中,既不忽略任何一个未经深度分析的数据,也不丢弃任何一个异常数据。在许多情况下,异常数据往往比常规数据更有价值。这样,也就自然地要求认知主体工作上缜密细心,时时关注事件的每一个细节与数据,真正做到明察秋毫、细心研制,直至收获完美的认识和成功的实践。
数据分析咨询请扫描二维码
需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20