R语言爬虫初尝试-基于RVEST包学习-CDA数据分析师官网

R语言爬虫初尝试-基于RVEST包学习

2017-01-11

R语言爬虫初尝试-基于RVEST包学习

在学完coursera的getting and Cleaning data后，继续学习用R弄爬虫网络爬虫。主要用的还是Hadley Wickham开发的rvest包。再次给这位矜矜业业开发各种好用的R包的大神奉上膝盖

查阅资料如下：

rvest的github

rvest自身的帮助文档

rvest + CSS Selector 网页数据抓取的最佳选择-戴申: 里面有提及如何快速获得html的位置。看完这篇，想想我之前看代码看半天分段真是逗比。。经测试，遨游浏览器，右键，审查元素可以得到类似结果。戴申的blog里面还有若干相关文章，国内RVEST资料基本就靠他的BLOG了，感激！

言归正传，拿了几个网页练手。包括对拉勾网爬了一下虫，还尝试了对国外某黄页爬虫，对ebay用户评价爬虫分析其卖家卖的东西主要在哪个价格段（我查的那个卖家，卖8.99和39.99最多，鞋子类），做了一下文本挖掘，还有爬了一下股票数据，基金买入情况等等。

之所以放拉勾网为例子，因为这个大家都比较熟一点？其他的都有点小众=_=而且虽然我没有跳槽的心，但年初却是很多人跳槽的热点。另外，因为之前听人说过，要了解一个公司的动态，有一个办法是去看这个公司放出来的招聘岗位，可以知道他们最近哪个业务线要扩张了，哪个业务线要跑人了，以及了解技术需求。

rvest基础语法：

library(rvest)
lagou<-"http://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?kd=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&spc=2&pl=&gj=&xl=&yx=&gx=&st=&labelWords=&lc=&workAddress=&city=%E6%B7%B1%E5%9C%B3&requestId=&pn=3"
web<-html(lagou,encoding="UTF-8") #读取数据，规定编码
#之前我是用关键字搜索，阅读html代码，获得html_nodes里需要什么属性，不过许多浏览器有开发者工具，可以直接获得层级信息。如遨游
position<-web %>% html_nodes("li div.hot_pos_l a") %>% html_text()
#上面就是直接读取数据，获得位置信息
#不过在后面做其他网站时发现，有时候信息储存在同类数据里(如div没有class等等)，建议是找一个大的分类，先获得表格信息，再做数据
list_lagou<-web %>% html_nodes("li.clearfix")
#这里正确找准正确的划分点很重要。有<li class="odd clearfix">，其实用li.clearfix一样可以取(对于空格二选一，如"li.odd"或者"li.clearfix")
#接下来的company/position照选即可，因为事先已经分好了list，所以每一个出多少心里有数。。

在讲完原理之后，现在开始尝试写代码

因为里面涉及太多的选取数据工作。为了避免出现太多变量，我最后是编了一个函数，输出数据库

函数部分

#下面开始写代码,首先写一个函数getdata，会输出一个数据框
getdata<-function(page,urlwithoutpage){
        url=paste0(urlwithoutpage,page) #这里输入拉勾网没有页码的url
        web<-html(url,encoding="UTF-8") #读取数据，规定编码,access用
        list_lagou<-web %>% html_nodes("li.clearfix") #获得一个清单，15个职位
        title<-list_lagou %>% html_nodes("div.hot_pos_l div.mb10 a")%>%html_text()
        company<-list_lagou %>% html_nodes("div.hot_pos_r div.mb10 a")%>%html_text()
        link<-gsub("\\?source\\=search","",list_lagou %>% html_nodes("div.hot_pos_l div.mb10 a")%>%html_attr("href"))
#接下来的由于数据都存在span里，没有很好的划分。这个取数要复杂一些。我在这里，研究他们的表，先取15个完整list，然后用seq等序列取数
#之后要研究是否有更好的方法
#如果有table，可以直接用data.table取数更快。。。
        temp<-list_lagou %>% html_nodes("div.hot_pos_l span")
        city<-temp[seq(1,90,by=6)] %>% html_text()
        salary<-gsub("月薪：","",temp[seq(2,90,by=6)]%>% html_text())
        year<-gsub("经验：","",temp[seq(3,90,by=6)]%>% html_text())
        degree<-gsub("最低学历：","",temp[seq(4,90,by=6)]%>%html_text())
        benefit<-gsub("职位诱惑：","",temp[seq(5,90,by=6)]%>% html_text())
        time<-temp[seq(6,90,by=6)]%>%html_text()
        data.frame(title,company,city,salary,year,degree,benefit,time,link)
}

然后是使用该函数，我这里就爬两页

#使用该函数，
library(rvest)
url<-"http://www.lagou.com/jobs/list_%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90?kd=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&spc=2&pl=&gj=&xl=&yx=&gx=&st=&labelWords=&lc=&workAddress=&city=%E6%B7%B1%E5%9C%B3&requestId=&pn="
final<-data.frame()
for (i in 3:5){
final<-rbind(final,getdata(i,url))
} #定义个数，把上面的getdata得到的Data.frame合并
head(final)

上面完成了第一个列表。爬出效果如图

关于这个数据有什么用呢…… 简单来说，我们可以用它来看这个网上有多少在招的，各公司招人的比例，以及薪资水平，做一点基础的数据分析。

虽然我现在不跳槽，不过了解一下市场状况也是不错的~譬如见下图，从目前这网上的平均薪资与工作年限的关系来看，数据分析岗至少在职位前五年属于薪资增长期，初始涨得快，后面涨得慢，但平均应有13%左右的增长？然后这网上目前没有什么高级岗位开出来（工作5-10年的岗位很少），反而是有些公司搞错分类，放了一堆数据录入的到数据分析栏目。。。

值得一提的是，因为数据分析这个类目里包含了不同的类别，如数据录入的也被归到数据分析，还有高薪也被归到这里，所以不能完全按这个做参考。不过这个研究让我深刻体会到了爬虫的有效性！好玩！实用！可以用到工作中去:) 还可以像个猎头一样了解人才市场~~做个有情调的数据分析师~~

另外，其实我们还可以遍历JD，看近期是什么技术最吃香，是R还是Python还是SQL还是SAS还是别的啥啥啥。下面是我随机抽了个JD做的爬虫。可以直接拿到相关数据。

final[1,9]
## [1] http://www.lagou.com/jobs/378361.html
## 45 Levels: http://www.lagou.com/jobs/113293.html ...
url<-as.character(final[1,9])
w<-html(url,encoding = "UTF-8")
d<-w %>% html_nodes("dd.job_bt p") %>% html_text()
d
## [1] "1.金融、计算机、财务、经济相关专业；"
## [2] "2.有证券从业资格证者优先；"
## [3] "3.想从事文职类工作，对办公软件熟悉；"
## [4] "4.可接收已拿到学历证的应届毕业生。"
## [5] "<U+00A0>"

注意事项：

对于被编码保护的数据（如国外yellow.local.ch，email被编码保护了。需要用 decodeURIComponent函数反编译。）

xpath语句对html_nodes适用。但是它好像是全局语句。。就是如果用div[1]//span[4]取数的话，它直接就只出全局的那个结果。。。

如

取数，可以用li.da或者li.daew取数，两者等价

正则表达式很有用！！尤其是对网页数据，某些不会写，或者技术高超不愿意被我们爬虫的工程师，用rvest去抓数据，会抓到一堆堆乱码= =这几天练习下来感受到了无尽恶意

中文，html(data,encoding='UTF-8')还有iconv(data,'utf-8','gbk')可以有效避免大部分乱码。但是R对中文支持真的很渣。

rvest对于静态抓取很方便！但是对于脚本访问的网页，还需要继续学习RCurl包。备查资料如下：

javascript数据提取-RCurl包-戴申: 介绍对脚本解析后抓取数据经验

RCurl提取统计之都论坛数据演示-medo

　等学会了再写总结。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想查询CDA考试成绩，点击>>> “CDA成绩” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想获取CDA考试时间/费用/条件/大纲/通过率，点击 >>>“CDA考试官网” 了解CDA考试详情；

数据分析正则表达式文本挖掘 SQL xpath R语言网络爬虫

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

R语言爬虫初尝试-基于RVEST包学习

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】2小时用AI完成的SQL教程也太赞了吧，不推荐 ...

【干货】指标波动归因分析：数据背后的故事 ...

数据分析学习指南：从踩坑到精通的成长之路 ...

数据分析学习指南

Deepseek如何帮助公司深入挖掘用户价值？ ...

【干货】Deepseek教我数据可视化看板实时更新 ...

一秒精通 Deepseek

Deepseek教我自学Python，貌似30天就够了 ...

【干货】2步学会构成分析，找到业务增长关键 ...

【2月】CDA网校2025 数据分析组队打卡学习活动第4期 ...

【干货】画用户画像与找相亲对象一样简单 ...

统计分析与数据挖掘的联系与区别

【干货】5分钟学会数据分析方法之【对比分析法】 ...

【干货】半监督学习（下）Label Spreading ...

【干货】用半监督学习方法处理标签（上）Label Prop ...

【干货】掌握这50个常用Excel函数，你的Excel就无敌 ...

【干货】7类常见的统计分析错误

【干货】“数据敏感”不是天赋！如何培养数据敏感度 ...

【干货】2025年必学技能：想转行数据分析看过来！ ...

【面试】秋招年薪50万，央企数据分析岗成功上岸！ ...