热线电话:13121318867

登录
2018-10-30 阅读量: 785
数据挖掘,你该明白的这几点

商业和生活中,我们处处能够看到数据挖掘的影子:

Target 百货分析16岁的少女买无香型沐浴露之后,判断她怀孕了;

语言学家通过记录自己孩子出生到3岁每天每秒钟的状态数据,发现语言记忆和周遭环境相关性更大;

调查局通过数据分析和挖掘发现改善公共环境有助于降低犯罪率。


今天我们将从以下几个方面来揭开数据挖掘的神秘面纱。

数据挖掘涉及的学科?

1.png

首先我们可以看出,数据分析与挖掘位于中间,也就是红点的位置,而旁边有很多交叉的学科。

数据库系统是现在比较普及的一种存储数据信息的方式,也就是电子档案的方式。统计学是一种传统的数据分析方法,它的起源比较早。模式识别、机器学习和人工智能与数据挖掘的交集点不多。机器学习,它本身是我们人类在研究人工智能的一种分析方法,提出了一些计算机的算法,而这些算法是和数据分析、数据挖掘是有交集的,比如前段时间比较火热的Alphago在人工神经网络方面的成功应用,而这些算法目前也逐渐应用在了商业范围内。

总体来说,数据分析与数据挖掘肯定是一门高度交叉的学科,而且包含的知识点,领域特别广,是综合社会科学和自然科学的一种交叉的一种学问。

1:建模流程、建模技术、业务场景的理解。

道,是放在最上层的东西,不管是什么学科,什么学问。而具体在数据挖掘领域,道着眼于对于整个数据挖掘的整套基本流程和建模技术、业务三者结合的深刻了解。需要大量的经验积累形成自己的一套思路和方法。


2:数据挖掘的标准流程化的步骤。

目前比较成熟的数据挖掘标准化流程如KDD(Knowledge Discovery inDatabase),CRISP-DM(Cross-industryStandard Process For Data Mining)。


3:数据挖掘的具体建模方法。

描述性(无监督学习)

用处:分析具有多个属性的数据集,找出潜在的模式,没有因变量

场景:观察个体之间的相似程度,例如根据年龄、性别、收入等因素进行客户细分;根据客户对多个产品的购买,发现产品之间的相关性,做精准商品推荐。

主要算法:聚类、关联分析、因子分析、主成份分析、社交网络分析、…


预测性(有监督学习)

用处:用一个或多个自变量预测因变量的值

场景:客户是否会违约是一个因变量,可以用客户的性别、年龄、收入、职位、经济状况、历史信用状况等因素进行预测

主要算法:决策树、线性回归、Logistic回归、支持向量机、神经网络、判别分析、…


4器以成事:建模的具体工具。

传统商业分析工具SAS,SPSS,开源类工具R,Python,Weka,Hadoop,Spark等。现在各种软件越来越智能化,越来越接近傻瓜化。但是软件的智能化不等于整个数据分析的智能化与自动化,如果没有对业务的深刻理解,建立的模型就没有说服力。关于软件的使用和选择,记住三点:

一、只要能达到目标的软件就是好软件;

二、你研究领域啥软件好用啥软件就是好软件;

三、不要妄想用一个软件解决一切问题。


C9DGDIP93I]{R@L2%5XUAT0.png

0.0000
4
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子