数据分析基础内容介绍 — 模型、工具、统计、挖掘与展现
这个金字塔图像是数据分析的多层模型,从下往上一共有六层:
底下第一层称为Data Sources 元数据层。
比如说在生产线上,在生产的数据库里面,各种各样的数据,可能是银行的业务数据,也可能是电信运营商在交换机里面采集下来的数据等等,然后这些生产的数据通过ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,通过这个过程,我们可以把需要的数据放到数据仓库里面,那这个数据仓库就是多层模型中的第二层。
数据仓库主要是给我们需要存放的数据提供一个物理基础,我们对数据进行分析,原材料都放在这个数据仓库里面,这几年以来,除了数据仓库这个概念,还兴起了数据集市这个概念,数据集市其实就是部门级的数据仓库,规模比较小一点的数据仓库。
再上面一层是Data Exploration,这层主要做统计分析的事情,比如我们算均值、标准差、方差、排序、求最小\大值、中位数、众数等等,这些统计学比较常用的指标,另外还有些SQL查询语句,总的来说主要是做一些目标比较明确,计算方法比较清楚的事情。
第四层是Data Mining数据挖掘层,数据挖掘与数据分析(统计分析)有什么区别呢,数据分析往往是统计量和算法比较清楚,数据挖掘往往是目标不是很清楚,在实现目标的过程中采用什么方法不能确定,所以数据挖掘比数据分析难度要高很多。
第五层是数据展现层,把数据分析和数据挖掘得出来的结果通过数据展现层的图表、报表把他展现出来,也可以称为数据可视化。
最后把这些图表、报表交给决策者,以这个为基础做一些决策。
常用的数据分析工具,包括一些厂商的数据库产品,包括IBM的DB2、甲骨文的Oracle数据库。这些厂商的数据库本身带有一些统计分析的包,里面有些标准的功能可以做数据分析工作,但用这些自带的数据分析工具功能相对不够专业。主要反映在缺乏标准的统计函数,比如做一个线性回归模型,需要写一大堆SQL语句,甚至要写一个plsql程序才能完成。但是在专业的统计软件只需要写一个简单的函数就可以完成。
目前最主流的统计软件有R、SAS、SPSS,R是一个免费的开源软件。
SAS大概是历史最悠久的统计软件,是一个商业软件,在60年代就诞生,在70年代以后逐渐商业化,发展到现在SAS已经成为国际标准。
SPSS也是一个历史悠久的统计软件,SPSS一开始是一个仿真软件,后来演变成一个统计软件,目前已经发展成为一个数据挖掘软件,目前被IBM收购,变成IBM旗下的一个产品,在社会学研究院领域有很多的应用。
其他的还有一些软件,比如说水晶报表(Crystal Reports),在做BI和报表非常擅长,另外如UCINET也是在社会学比较常用的软件,它可以画群体的网络图,社交关系图非常擅长。
使用统计方法,有目的地对收集到的数据进行分析处理,并且解读分析结果:
常用算法
数据挖掘是以查找隐藏在数据中的信息为目标的技术,是应用算法从大型数据库中提取知识的过程,这些算法确定信息项之间的隐性关联,并且向用户显示这些关联。
常见数据挖掘任务:关联分析,聚类分析,孤立点分析等等
例:啤酒与尿布的故事
展现层在数据分析中是一个很重要的组成部分,在大家的心目中数据分析软件只是读数据和算数据,结果算出来就OK了。但其实结果算出来以后对于数据分析还远没有结束,还需要把结果展现出来,有些时候可能结果的展现比计算花的时间还要多。
下图是一个比较老土的报表。
如果那这种报表给老板看,那体验效果肯定很差,其实人的特点对数字的感觉不敏感,如果你那一大堆数字组成的报表给老板看,老板肯定不是很高兴。
人对图形会比较敏感,所以在统计学里面通常有比较标准的图,如饼图、柱形图(垂直和水平)、虚线图、水泡图、鱼骨图、箱线图等等。
下面是一张在地图上展现数据的展现形式
下图是关于使用安卓手机的数据展现
根据信息图显示,Android先生的头发有47%的可能是黑色的,戴眼镜的几率为37%,有36%的可能是北美人,30%的可能脸上长雀斑。71%的时 间会穿T恤,下身穿牛仔裤的时间占了62%。工作只占了38%,玩游戏却占了62%,平均每个月会用掉582MB的数据流量。这种图称为信息图,在数据分析这个行业里面,是数据展现工作的主要组成部分。
数据分析咨询请扫描二维码
CDA数据分析师认证:CDA认证分为三个等级:Level Ⅰ、Level Ⅱ和Level Ⅲ,每个等级的报考条件如下: Le ...
2024-11-14自学数据分析可能是一条充满挑战却又令人兴奋的道路。随着数据在现代社会中的重要性日益增长,掌握数据分析技能不仅能提升你的就 ...
2024-11-14数据分析相关职业选择 数据分析领域正在蓬勃发展,为各种专业背景的人才提供了丰富的职业机会。从初学者到有经验的专家,每个人 ...
2024-11-14数据挖掘与分析在金融行业的使用 在当今快速发展的金融行业中,数据挖掘与分析的应用愈发重要,成为驱动行业变革和提升竞争力的 ...
2024-11-14学习数据挖掘需要掌握哪些技能 数据挖掘是一个不断发展的领域,它结合了统计学、计算机科学和领域专业知识,旨在从数据中提取有 ...
2024-11-14统计学作为一门基于数据的学科,其广泛的应用领域和多样的职业选择,使得毕业生拥有丰厚的就业前景。无论是在政府还是企业,统计 ...
2024-11-14在当今高速发展的技术环境下,企业正在面临前所未有的机遇和挑战。数字化转型已成为企业保持竞争力和应对市场变化的必由之路。要 ...
2024-11-13爬虫技术在数据分析中扮演着至关重要的角色,其主要作用体现在以下几个方面: 数据收集:爬虫能够自动化地从互联网上抓取大量数 ...
2024-11-13在数据分析中,数据可视化是一种将复杂数据转化为图表、图形或其他可视形式的技术,旨在通过直观的方式帮助人们理解数据的含义与 ...
2024-11-13在现代银行业中,数字化用户行为分析已成为优化产品和服务、提升客户体验和提高业务效率的重要工具。通过全面的数据采集、深入的 ...
2024-11-13在这个数据飞速增长的时代,企业若想在竞争中占据优势,必须充分利用数据分析优化其营销策略。数据不仅有助于理解市场趋势,还可 ...
2024-11-13数据分析行业的就业趋势显示出多个积极的发展方向。随着大数据和人工智能技术的不断进步,数据分析在各行各业中的应用变得越来越 ...
2024-11-13市场数据分析是一门涉及多种技能和工具的学科,对企业在竞争激烈的市场中保持竞争力至关重要。通过数据分析,企业不仅可以了解当 ...
2024-11-13数据分析与数据挖掘是数据科学领域中两个关键的组成部分,它们各有独特的目标、方法和应用场景。尽管它们经常在实际应用中结合使 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13在如今这个数据驱动的时代,数据分析能力已经成为许多行业的重要技能。无论是为工作需要,还是为了职业转型,掌握数据分析都能够 ...
2024-11-13作为一名业务分析师,你肩负着将业务需求转化为技术解决方案的重任。面试这一角色时,涉及的问题多种多样,涵盖技术技能、分析能 ...
2024-11-13自学数据分析可能看似一项艰巨的任务,尤其在开始时。但是,通过一些策略和方法,你可以系统地学习和掌握数据分析的相关知识和技 ...
2024-11-10Excel是数据分析领域中的一款强大工具,它凭借其灵活的功能和易用的界面,成为了许多数据分析师和从业者的首选。无论是简单的数 ...
2024-11-10在快速发展的商业环境中,数据分析能力已经成为许多行业的核心竞争力。无论是初学者还是经验丰富的专家,搭建一个有效的数据分析 ...
2024-11-10