学术研究中的“加速器”--Python爬虫-CDA数据分析师官网

热线电话：13121318867

首页CDA发布学术研究中的“加速器”--Python爬虫

学术研究中的“加速器”--Python爬虫

2019-08-28

对于科学研究：人类动力学研究，计量社会学，复杂网络，数据挖掘，理论计量学、应用计量学、或是各个论文中对数据整理都异常重要。

而网络爬虫是收集相关数据的利器,它可以抓取某个网站或者某个应用的内容，提取有用的价值以及各种数据。也可以模拟用户在浏览器或者App应用上的操作，实现自动化的程序。

而因为Python的脚本特性，以及其不仅易于配置，而且对字符的处理也非常灵活，加上Python有丰富的网络抓取模块，所以网络爬虫经常与Python联系在一起。

“工欲善其事，必先利其器”，当您的实证分析中有了一手的准确数据，就好像伐木人有了一把锋利的斧子，那么您的实证效率会呈现几何级的增长！这把利器就是Python爬虫：

Python爬虫学术应用_3月北京现场班

时间：2019年3月22-25日 (四天)

地点：北京市海淀区丹龙大厦附近

安排：上午9:00-12:00，下午1:30-4:30，答疑4:30-5:00

费用：3600元 / 3000元(学生价仅限全日制本科生及硕士在读)；食宿自理

我要报名

讲师介绍：

阎老师，长期从事数据分析的理论研究、教学和实践工作。长期关注各类统计软件的发展和国内外各行业的应用情况，一直保持着与统计应用前沿的密切接触，在数据挖掘应用、市场研究应用等领域经验丰富。
擅长企业数据分析和企业诊断，参与多项国家级、省级课题的科研工作，曾任多家电商企业的运营顾问和培训师，积累了大量实战经验。

课程导引：

在了解爬虫的过程中，由于对这项技术缺乏系统了解，“小白”们难免会被纷繁生僻的知识点折腾地眼花缭乱、晕头转向。有的人打算先搞懂基本原理和工作流程，有的人计划从软件的基本语法入门，也有人打算弄懂了网页文档再来……在学习抓取网络信息的道路上，许多人因为中途掉进陷阱最终无功而返。因此，掌握正确的方法的确非常重要。

这一门课的目的，就是希望能够通过通俗易懂的讲解，令没有编程基础的研究人员通过学习，能够学会爬取主流网站的内容并整理成为可为后续分析提供依据的数据资料。在这门课结束之后，我们能够爬取豆瓣的评论内容、学术论文、淘宝的销售数据、房价的变化趋势，还能对股票市场进行分析和预测。

课程大纲：

为了能够完整地呈现Python数据采集的方法和过程，这门课将分为四大部分——

一、Python快速入门

在写爬虫之前，我们需要了解一些有关工具的基础知识。所以，第一天的授课内容是关于Python基础的，是后续课程中读懂并编写爬虫程序的铺垫。其中包括了Python的数据结构、变量类型、循环和控制语句、Numpy和Pandas包的基本功能。有基础的老师可以跳过这一部分直接进入第二部分。

第1章认识Python

1. Python的数据结构与函数

2. Python的循环与控制流

3. Python的基本扩展库

二、初识爬虫

在这一部分中，我们将正式接触爬虫，我们也将感受到每天都在使用的浏览器究竟藏着哪些细节。为了能够得到清洁的数据，我们不得不忽略网页精致的外观和编排，刻意绕开浏览器的帮助来分离和理解数据。页源里除了我们认识的文字，那些标签都有着怎样的含义？如何把网页内容“请”到我们的分析工具中来？爬取数据有怎样的规律可循？这些都是第二部分将要呈现的内容。

第2章重新认识网络

1. 什么是Web前端

2. HTML的结构

第3章创建爬虫

1. 什么是爬虫

2. Python爬虫的环境搭建

3. 爬虫三部曲——获取、解析、保持

小例子：创建第一个爬虫

三、页面解析

在之前的课程中，我们已经知道了要怎样繁复的工程才堆砌出绚丽的网页，但这其中大部分的内容是我们并不需要的。如何穿越层层与我们无关的标签和HTML属性抽取到清洁的数据内容？如何使用更简洁高效的方式达到目的？大名鼎鼎的“正则”究竟是什么？这些是4-6章要重点讲授的内容。

第4章复杂HTML解析

1. 正则表达式

2. 一个名叫“心灵鸡汤”的扩展库

3. 导航树

4. 突破反爬虫的限制

案例1：静态页面爬虫

第5章动态渲染页面的爬取

1. Ajax和动态HTML

2. 无界面浏览器PhantomJS

3. 自动化测试库Selenium

案例2：动态爬虫

第6章 Scrapy爬虫架构

1. Scrapy爬虫结构

2. 创建爬虫模块

3. 选择器

4. 构建Item Pipeline

5. 请求与相应

案例3：Scrapy爬虫

四、爬取结果的处理

到目前为止，我们处理的还都是规范数据，但现实是，我们面对更多的是样式不规范的数据，放弃不符合预期的数据并不是一个长久之计。在我们无法挑选数据时，这一章的内容就显得格外有用了。一个长句中究竟包含了哪些有效信息？一条评价反映出客户怎样的态度？接下来的内容将介绍一些工具和方法，帮助我们控制或筛选进入视线的数据，为后续的数据分析做准备。

第7章数据清洗

1. 清洗结构化数据

2. 清洗非结构化数据

3. 数据标准化

案例4：计算词频

第8章自然语言处理入门

1. 获取文本语料

2. 加工原始文本

3. 从文本中提取信息

案例5：情感分析

优惠信息：

现场班老学员9折优惠；
同一单位三人以上同时报名9折优惠；