1.数据分析和数据挖掘的概念
数据分析(Data Analysis) 是以数据为分析对象,以探索数据内的有用信息为主要途径,以解决业务需求为最终目标,包含业务理解、数据采集、 数据清洗、数据探索、数据可视化、数据建模、模型结果可视化、分析结果的业务应用等步骤在内的一整套分析流程。
数据挖掘(Data Mining) : 是一个跨学科的计算机科学分支,它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发 现模式的计算过程。
2.数据分析的八个层次
数据分析的目的:发现有价值的信息、提出结论、为业务发展提供辅助决策。它描述了 ”过去发生了什么“、”现在 正在发生什么“ 和 “未来可能发生什么”。根据分析层次的级别不同,分为常规报表、即席查询、多维分析(又称钻 取或OLAP)、警报、统计分析、预报(或者时间序列预测)、预测型建模(Predictive Model)和优化。
3.大数据对传统小数据的拓展及其区别与联系
数据上:小数据重抽样,大数据重全体。由于传统小数据分析的本质是基于样本推断总体,因此在分析过程中十分 注重抽样的科学性。只有抽样是科学的,其推断结果才具有科学意义。而大数据虽然不一定是总体,但由于在建模 方法上已经更偏向于机器学习,因此抽样已经不是必要的手段和方法论了。
方法上:小数据重实证,大数据重优化。传统的小数据在方法上更重视实证研究,强调在相关理论的前提下建立假设,收集数据,建立模型并验证假设。而大数据往往更重视方法论中的自我迭代和自我优化过程,可能运算的第一 个结果与标准答案相差甚远,但是可以通过与正确答案的不断校准(往往建立损失函数),使得模型的精度不断提高。
目标上:小数据重解释,大数据重预测。小数据的分析往往注重归因分析,探索变量之间的内部影响机理,例如究竟什么样的生活习惯会提高癌症的发病率。但是大数据往往关心的是对于未知对象的预测,例如判别某个人是否患有癌症,或者患有癌症的概率是多少。
4.数据分析目标的意义、过程及其本质
可以认为数据分析涉及到公司运营的方方面面,这包括对企业部门经营情况的评估、内部员工的管理、生产流程的监管、 产品结构优化与新产品开发、财务成本优化、市场结构的分析和客户关系的管理。其中,关于客户与市场的数据分析是 “重头戏”。下面以客户全生命周期管理为例介绍数据分析运用场景和挖掘主题,如下图所示。
1.CRISP-DM 方法论
CRISP-DM方法论将数据挖掘项目生命周期分为6个阶段,它们分别是业务理解、数据理解、数据准备、建模、模型评 估和模型发布,如下图所示。
下图呈现了通用数据挖掘方法论(CRISP-DM)流程的6个阶段。下面简短地介绍了每个阶段的要点。
业务理解(Business Understanding) 该初始阶段集中在从商业角度理解项目的目标和要求,通过理论分析转化为数据挖掘可操作的问题,制定实现目标的初 步计划。
数据理解(Data Understanding) 数据理解阶段开始于原始数据的收集,然后是熟悉数据、标明数据质量问题、探索对数据的初步理解、发觉有趣的子集 以形成对探索关系的假设。
数据准备(Data Preparation) 数据准备阶段包括所有从原始的、未加工的数据构造数据挖掘所需信息的活动。数据准备任务可能被实施多次,而且没 有任何规定的顺序。这些任务的主要目的是从源系统根据维度分析的要求,获取所需要的信息,需要对数据进行转换和 清洗。
建模(Modeling) 在此阶段,主要是选择和应用各种建模技术,同时对它们的参数进行校准,以达到最优值。通常对同一个数据挖掘问题 类型,会有多种建模技术。一些技术对数据格式有特殊的要求,因此,常常需要返回到数据准备阶段。
模型评估(Evaluation) 在模型最后发布前,根据商业目标评估模型和检查建立模型的各个步骤。此阶段关键目的是,判断是否存在一些重要的 商业问题仍未得到充分考虑。
模型发布(Deployment) 模型完成后,由模型使用者(客户)根据当时背景和目标完成情况,决定如何在现场使用模型。比如,在网页的实时个 人化中或营销数据的重复评分中。
2.SEMMA 方法论
SAS公司的数据挖掘项目实施方法论,对CRISP-DM方法中的数据准备和建模环节进行了拓展,被称为SEMMA方法, 如下图所示。
3.5个步骤中的主要任务,如下图所示。
数据整理
涉及数据采集、数据合并与抽样的操作,目的是为了构造分析用到的数据。分析人员根据维度分析获得的结果作为整理 数据的依据,将散落在公司内部与外部的数据进行整合。
样本探索
这个步骤的主要任务是对数据质量的探索。变量质量方面涉及错误值(如:年龄=-30)、恰当性(客户的某些业务指标 为缺失值,实际上是没有这个业务,值应该为“0”)、缺失值(没有客户的收入信息)、一致性(收入单位为人民币, 而支出单位为美元)、平稳性(某些数据的均值变化过于剧烈)、重复值(相同的交易被记录两次)和及时性(银行客 户的财务数据更新的滞后时长)等方面。这部分的探索主要解决变量是错误时是否可以修改、是否可以使用的问题。
变量修改
根据变量探索的结论,需要对数据质量问题和变量分布情况分别作变量修改。数据质量问题的修改涉及改正错误编码、 缺失值填补、单位统一等操作。变量分布情况的修改涉及函数转换和标准化方法,具体的修改方法需要与后续的统计建 模方法相结合。
建模 根据分析的目的选取合适的模型,这部分内容在“数据分析方法分类介绍”已经作了详细的阐述,这里不再赘述。
模型检验 这里指模型的样本内验证,即使用历史数据对模型表现的优劣进行评估。比如,对有监督学习会使用ROC曲线和提升度 等技术指标评估模型的预测能力。
数据分析中不同人员的角色与职责
业务问题是需求,最终需要转换成统计或数据挖掘等问题,用数据分析的思路来解决,因此数据分析师在业务与数据间 起到协调作用,是业务问题能否成功转换成统计问题的关键。通常来说,业务问题需要一个或多个字段来表达,这些字 段以什么形式出现(如测量级别),因为字段的形式会决定选择的方法,而每种方法又用于解决特定的需求,此外由于 模型对业务人员或企业高管来说可能过于专业,因此需要将模型输出通俗的表达出来。所以协调者、数据分析师、报告 人的角色,决定了数据分析师是一名(精通数理和软件的)综合型人才。
1.公司营销部门每月例会报告的经营指标汇总,属于下列哪一类数据分析?
A. 客户行为的数据挖掘报告
B. 描述性数据分析报告
C. 产品和行为倾向报告
D. 以上都不对
答案:B 解析:按照惯例经营指标汇总,通常是报告业绩指标的数量、金额、百分比或排名等信息,这类 分析多数归属于描述性数据分析,而且是单变量分析的内容。AC项涉及行为特点和商品特征的关 系,属于多变量分析的内容。
2.以下哪些内容包含在数据分析层次级别中?
A. 即席查询
B. 多维分析(又称为钻取或者OLAP)
C. 统计分析与警报
D. 与业务人员协商知识点
答案:ABC 解析:考察数据分析的八个层次,需要在理解的基础上加以记忆。
3.统计模型主要用于解决哪几类问题?
A. 预测分类问题
B. OLAP分析问题
C. 相关分析
D. 市场细分问题
答案:ACD 解析:A项、C项和D项是统计模型的典型问题,但OLAP分析问题并不是统计模型。
4.下列关于数据挖掘流程表达正确的一项是:
A. 方法论CRISP-DM与SEMMA是业内公认的权威流程,严格按照步骤做数据分析总不会出错的
B. CRISP-DM(译为“跨行业”数据挖掘)在任何数据分析行业中均适用
C. SEMMA方法论是对CRISP-DM方法中的数据准备和建模环节进行了拓展
D. 由于数据比较整洁,所以可以不需要再做数据预处理,直接从建模开始
答案:C 解析:AB两项都犯同一类错误,就是过于迷信方法论的共识性,D项中数据分析的一般性 描述是很重要的预分析过程,不仅如此,模型对于数据的要求也很高,样本探索、变量整理等预处理工作都不可省去。
5.关于客户生命周期管理,下列哪一项不属于对既有高价值客户的分析内容?
A. 行为信用评分
B. 初始信用评分
C. 产品精准营销
D. 客户留存管理
答案:B 解析:高价值客户属于企业的既有客户,而初始信用评分属于对潜在响应客户的 策略分析。
6.统计模型主要用于解决哪几类问题?
A.预测分类问题
B.OLAP分析问题
C.相关分析
D.市场细分问题
答案:ACD 解析:A项、C项和D项是统计模型的典型问题,但OLAP分析问题并不属于统计模型。
点击CDA题库链接,获取免费版CDA题库入口,祝考试顺利,快速拿证!
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17