(干货)数据分析案例--以上海二手房为例-CDA数据分析师官网

(干货)数据分析案例--以上海二手房为例

2017-01-13

(干货)数据分析案例--以上海二手房为例

如果你手上有一批数据，你可能应用统计学、挖掘算法、可视化方法等技术玩转你的数据，但你没有数据的时候，我该怎么玩呢？接下来就带着大家玩玩没有数据情况下的数据分析。
本文从如下几个目录详细讲解数据分析的流程：
1、数据源的获取；
2、数据探索与清洗；
3、模型构建（聚类算法和线性回归）；
4、模型预测；
5、模型评估；
一、数据源的获取
正如本文的题目一样，我要分析的是上海二手房数据，我想看看哪些因素会影响房价？哪些房源可以归为一类？我该如何预测二手房的价格？可我手上没有这样的数据样本，我该如何回答上面的问题呢？
互联网时代，网络信息那么发达，信息量那么庞大，随便找点数据就够喝一壶了。前几期我们已经讲过了如何从互联网中抓取信息，采用Python这个灵活而便捷的工具完成爬虫，例如：
通过Python抓取天猫评论数据
使用Python实现豆瓣阅读书籍信息的获取
使用Python爬取网页图片
当然，上海二手房的数据仍然是通过爬虫获取的，爬取的平台来自于链家，页面是这样的：

我所需要抓取下来的数据就是红框中的内容，即上海各个区域下每套二手房的小区名称、户型、面积、所属区域、楼层、朝向、售价及单价。先截几张Python爬虫的代码，源代码和数据分析代码写在文后的链接中，如需下载可以到指定的百度云盘链接中下载。

上面图中的代码是构造所有需要爬虫的链接。

上面图中的代码是爬取指定字段的内容。
爬下来的数据是长这样的（总共28000多套二手房）：

二、数据探索与清洗（一下均以R语言实现）
当数据抓下来后，按照惯例，需要对数据做一个探索性分析，即了解我的数据都长成什么样子。
1、户型分布
# 户型分布
library(ggplot2)
type_freq <- data.frame(table(house$户型))
# 绘图
type_p <- ggplot(data = type_freq, mapping = aes(x = reorder(Var1, -Freq),y = Freq)) + geom_bar(stat = 'identity', fill = 'steelblue') + theme(axis.text.x = element_text(angle = 30, vjust = 0.5)) + xlab('户型') + ylab('套数')
type_p

我们发现只有少数几种的户型数量比较多，其余的都非常少，明显属于长尾分布类型（严重偏态），所以，考虑将1000套一下的户型统统归为一类。
# 把低于一千套的房型设置为其他
type <- c('2室2厅','2室1厅','3室2厅','1室1厅','3室1厅','4室2厅','1室0厅','2室0厅')
house$type.new <- ifelse(house$户型 %in% type, house$户型,'其他')
type_freq <- data.frame(table(house$type.new))
# 绘图
type_p <- ggplot(data = type_freq, mapping = aes(x = reorder(Var1, -Freq),y = Freq)) + geom_bar(stat = 'identity', fill = 'steelblue') + theme(axis.text.x = element_text(angle = 30, vjust = 0.5)) + xlab('户型') + ylab('套数')
type_p

2、二手房的面积和房价的分布
# 面积的正态性检验
norm.test(house$面积)

# 房价的正态性检验
norm.test(house$价格.W.)

上面的norm.test函数是我自定义的函数，函数代码也在下文的链接中，可自行下载。从上图可知，二手房的面积和价格均不满足正态分布，那么就不能直接对这样的数据进行方差分析或构建线性回归模型，因为这两种统计方法，都要求正态性分布的前提假设，后面我们会将讲解如何处理这样的问题。
3、二手房的楼层分布
原始数据中关于楼层这一变量，总共有151种水平，如地上5层、低区/6层、中区/11层、高区/40层等，我们觉得有必要将这151种水平设置为低区、中区和高区三种水平，这样做有助于后面建模的需要。
# 把楼层分为低区、中区和高区三种
house$floow <- ifelse(substring(house$楼层,1,2) %in% c('低区','中区','高区'), substring(house$楼层,1,2),'低区')
# 各楼层类型百分比分布
percent <- paste(round(prop.table(table(house$floow))*100,2),'%',sep = '')
df <- data.frame(table(house$floow))
df <- cbind(df, percent)
df

可见，三种楼层的分布大体相当，最多的为高区，占了36.1%。
4、上海各地区二手房的均价
# 上海各区房价均价
avg_price <- aggregate(house$单价.平方米., by = list(house$区域), mean)
#绘图
p <- ggplot(data = avg_price, mapping = aes(x = reorder(Group.1, -x), y = x, group = 1)) + geom_area(fill = 'lightgreen') + geom_line(colour = 'steelblue', size = 2) + geom_point() + xlab('') + ylab('均价')
p

很明显，上海二手房价格最高的三个地区为：静安、黄埔和徐汇，均价都在7.5W以上，价格最低的三个地区为：崇明、金山和奉贤。
5、房屋建筑时间缺失严重

建筑时间这个变量有6216个缺失，占了总样本的22% 。虽然缺失严重，但我也不能简单粗暴的把该变量扔掉，所以考虑到按各个区域分组，实现众数替补法。这里构建了两个自定义函数：
library(Hmisc)
# 自定义众数函数
stat.mode <- function(x, rm.na = TRUE){
if (rm.na == TRUE){
    y = x[!is.na(x)]
}
res = names(table(y))[which.max(table(y))]
return(res)
}
# 自定义函数，实现分组替补
my.impute <- function(data, category.col = NULL,
                      miss.col = NULL, method = stat.mode){
impute.data = NULL
for(i in as.character(unique(data[,category.col]))){
    sub.data = subset(data, data[,category.col] == i)
    sub.data[,miss.col] = impute(sub.data[,miss.col], method)
    impute.data = c(impute.data, sub.data[,miss.col])
}
data[,miss.col] = impute.data
return(data)
}

# 将建筑时间中空白字符串转换为缺失值
house$建筑时间[house$建筑时间 == ''] <- NA
#分组替补缺失值，并对数据集进行变量筛选

final_house <- subset(my.impute(house, '区域', '建筑时间'),select = c(type.new,floow,面积,价格.W.,单价.平方米.,建筑时间))
#构建新字段，即建筑时间与当前2016年的时长
final_house <- transform(final_house, builtdate2now = 2016-as.integer(substring(as.character(建筑时间),1,4)))
#删除原始的建筑时间这一字段
final_house <- subset(final_house, select = -建筑时间)
最终完成的干净数据集如下：

接下来就可以针对这样的干净数据集，作进一步的分析，如聚类、线性回归等。
三、模型构建
这么多的房子，我该如何把它们分分类呢？即应该把哪些房源归为一类？这就要用到聚类算法了，我们就使用简单而快捷的k-means算法实现聚类的工作。但聚类前，我需要掂量一下我该聚为几类？根据聚类原则：组内差距要小，组间差距要大。我们绘制不同类簇下的组内离差平方和图，聚类过程中，我们选择面积、房价和单价三个数值型变量：
tot.wssplot <- function(data, nc, seed=1234){
#假设分为一组时的总的离差平方和
tot.wss <- (nrow(data)-1)*sum(apply(data,2,var))
for (i in 2:nc){
    #必须指定随机种子数
    set.seed(seed)
    tot.wss[i] <- kmeans(data, centers=i, iter.max = 100)$tot.withinss
}
plot(1:nc, tot.wss, type="b", xlab="Number of Clusters",
       ylab="Within groups sum of squares",col = 'blue',
       lwd = 2, main = 'Choose best Clusters')
}
# 绘制不同聚类数目下的组内离差平方和
standrad <- data.frame(scale(final_house[,c('面积','价格.W.','单价.平方米.')]))
myplot <- tot.wssplot(standrad, nc = 15)

当把所有样本当作一类时，离差平方和达到最大，随着聚类数量的增加，组内离差平方和会逐渐降低，直到极端情况，每一个样本作为一类，此时组内离差平方和为0。从上图看，聚类数量在5次以上，组内离差平方降低非常缓慢，可以把拐点当作5，即聚为5类。
# 将样本数据聚为5类
set.seed(1234)
clust <- kmeans(x = standrad, centers = 5, iter.max = 100)
table(clust$cluster)

# 按照聚类的结果，查看各类中的区域分布
table(final_house$区域,clust$cluster)

# 各户型的平均面积
aggregate(final_house$面积, list(final_house$type.new), mean)

# 按聚类结果，比较各类中房子的平均面积、平均价格和平均单价
aggregate(final_house[,3:5], list(clust$cluster), mean)

从平均水平来看，我大体可以将28000多套房源合成为如下几种说法：
a、大户型（3室2厅、4室2厅），属于第2类。平均面积都在130平以上，这种大户型的房源主要分布在青浦、黄埔、松江等地（具体可从各类中的区域分布图可知）。
b、地段型（房价高），属于第1类。典型的区域有黄埔、徐汇、长宁、浦东等地（具体可从各类中的区域分布图可知）。
c、大众蜗居型（面积小、价格适中、房源多），属于第4和5类。典型的区域有宝山、虹口、闵行、浦东、普陀、杨浦等地
d、徘徊型（大户型与地段型之间的房源），属于第3类。典型的区域有奉贤、嘉定、青浦、松江等地。这些地区也是将来迅速崛起的地方。
# 绘制面积与单价的散点图，并按聚类进行划分
p <- ggplot(data = final_house[,3:5], mapping = aes(x = 面积,y = 单价.平方米., color = factor(clust$cluster)))
p <- p + geom_point(pch = 20, size = 3)
p + scale_colour_manual(values = c("red","blue", "green", "black", "orange"))

接下来我想借助于已有的数据（房价、面积、单价、楼层、户型、建筑时长、聚类水平）构建线性回归方程，用于房价因素的判断及预测。由于数据中有离散变量，如户型、楼层等，这些变量入模的话需要对其进行哑变量处理。
# 构造楼层和聚类结果的哑变量
# 将几个离散变量转换为因子，目的便于下面一次性处理哑变量
final_house$cluster <- factor(clust$cluster)
final_house$floow <- factor(final_house$floow)
final_house$type.new <- factor(final_house$type.new)
# 筛选出所有因子型变量
factors <- names(final_house)[sapply(final_house, class) == 'factor']
# 将因子型变量转换成公式formula的右半边形式
formula <- f <- as.formula(paste('~', paste(factors, collapse = '+')))
dummy <- dummyVars(formula = formula, data = final_house)
pred <- predict(dummy, newdata = final_house)
head(pred)

# 将哑变量规整到final_house数据集中
final_house2 <- cbind(final_house,pred)
# 筛选出需要建模的数据
model.data <- subset(final_house2,select = -c(1,2,3,8,17,18,24))
# 直接对数据进行线性回归建模
fit1 <- lm(价格.W. ~ .,data = model.data)
summary(fit1)

从体看上去还行，只有建筑时长和2室0厅的房型参数不显著，其他均在0.01置信水平下显著。不要赞赞自喜，我们说，使用线性回归是有假设前提的，即因变量满足正态或近似于正态分布，前面说过，房价明显在样本中是偏态的，并不服从正态分布，所以这里使用COX-BOX变换处理。根据COX-BOX变换的lambda结果，我们针对y变量进行转换，即：
# Cox-Box转换
library(car)
powerTransform(fit1)

根据结果显示， 0.23非常接近上表中的0值，故考虑将二手房的价格进行对数变换。
fit2 <- lm(log(价格.W.) ~ .,data = model.data)
summary(fit2)

这次的结果就明显比fit1好很多，仅有楼层的中区在0.1置信水平下显著，其余变量均在0.01置信水平下显著，而且调整的R方值也提高到了94.3% ，即这些自变量对房价的解释度达到了94.3%。
最后我们再看一下，关于最终模型的诊断结果：
# 使用plot方法完成模型定性的诊断
opar <- par(no.readonly = TRUE)
par(mfrow = c(2,2))
plot(fit2)
par(opar)

从上图看，基本上满足了线性回归模型的几个假设，即：残差项服从均值为0（左上），标准差为常数（左下）的正态分布分布（右上）。基于这样的模型，我们就可以有针对性的预测房价啦~

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

线性回归正态分布数据分析字段长尾分布 R语言方差分析散点图

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

(干货)数据分析案例--以上海二手房为例

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...