京公网安备 11010802034615号
经营许可证编号:京B2-20210330
对于科学研究:人类动力学研究,计量社会学,复杂网络,数据挖掘,理论计量学、应用计量学、或是各个论文中对数据整理都异常重要。
而网络爬虫是收集相关数据的利器,它可以抓取某个网站或者某个应用的内容,提取有用的价值以及各种数据。也可以模拟用户在浏览器或者App应用上的操作,实现自动化的程序。
而因为Python的脚本特性,以及其不仅易于配置,而且对字符的处理也非常灵活,加上Python有丰富的网络抓取模块,所以网络爬虫经常与Python联系在一起。
“工欲善其事,必先利其器”,当您的实证分析中有了一手的准确数据,就好像伐木人有了一把锋利的斧子,那么您的实证效率会呈现几何级的增长!这把利器就是Python爬虫:
Python爬虫学术应用_3月北京现场班
时间:2019年3月22-25日 (四天)
地点:北京市海淀区丹龙大厦附近
安排:上午9:00-12:00,下午1:30-4:30,答疑4:30-5:00
费用:3600元 / 3000元(学生价仅限全日制本科生及硕士在读);食宿自理
讲师介绍:
阎老师,长期从事数据分析的理论研究、教学和实践工作。长期关注各类统计软件的发展和国内外各行业的应用情况,一直保持着与统计应用前沿的密切接触,在数据挖掘应用、市场研究应用等领域经验丰富。
擅长企业数据分析和企业诊断,参与多项国家级、省级课题的科研工作,曾任多家电商企业的运营顾问和培训师,积累了大量实战经验。
课程导引:
在了解爬虫的过程中,由于对这项技术缺乏系统了解,“小白”们难免会被纷繁生僻的知识点折腾地眼花缭乱、晕头转向。有的人打算先搞懂基本原理和工作流程,有的人计划从软件的基本语法入门,也有人打算弄懂了网页文档再来……在学习抓取网络信息的道路上,许多人因为中途掉进陷阱最终无功而返。因此,掌握正确的方法的确非常重要。
这一门课的目的,就是希望能够通过通俗易懂的讲解,令没有编程基础的研究人员通过学习,能够学会爬取主流网站的内容并整理成为可为后续分析提供依据的数据资料。在这门课结束之后,我们能够爬取豆瓣的评论内容、学术论文、淘宝的销售数据、房价的变化趋势,还能对股票市场进行分析和预测。
课程大纲:
为了能够完整地呈现Python数据采集的方法和过程,这门课将分为四大部分——
一、Python快速入门
在写爬虫之前,我们需要了解一些有关工具的基础知识。所以,第一天的授课内容是关于Python基础的,是后续课程中读懂并编写爬虫程序的铺垫。其中包括了Python的数据结构、变量类型、循环和控制语句、Numpy和Pandas包的基本功能。有基础的老师可以跳过这一部分直接进入第二部分。
第1章 认识Python
1. Python的数据结构与函数
2. Python的循环与控制流
3. Python的基本扩展库
二、初识爬虫
在这一部分中,我们将正式接触爬虫,我们也将感受到每天都在使用的浏览器究竟藏着哪些细节。为了能够得到清洁的数据,我们不得不忽略网页精致的外观和编排,刻意绕开浏览器的帮助来分离和理解数据。页源里除了我们认识的文字,那些标签都有着怎样的含义?如何把网页内容“请”到我们的分析工具中来?爬取数据有怎样的规律可循?这些都是第二部分将要呈现的内容。
第2章 重新认识网络
1. 什么是Web前端
2. HTML的结构
第3章 创建爬虫
1. 什么是爬虫
2. Python爬虫的环境搭建
3. 爬虫三部曲——获取、解析、保持
小例子:创建第一个爬虫
三、页面解析
在之前的课程中,我们已经知道了要怎样繁复的工程才堆砌出绚丽的网页,但这其中大部分的内容是我们并不需要的。如何穿越层层与我们无关的标签和HTML属性抽取到清洁的数据内容?如何使用更简洁高效的方式达到目的?大名鼎鼎的“正则”究竟是什么?这些是4-6章要重点讲授的内容。
第4章 复杂HTML解析
1. 正则表达式
2. 一个名叫“心灵鸡汤”的扩展库
3. 导航树
4. 突破反爬虫的限制
案例1:静态页面爬虫
第5章 动态渲染页面的爬取
1. Ajax和动态HTML
2. 无界面浏览器PhantomJS
3. 自动化测试库Selenium
案例2:动态爬虫
第6章 Scrapy爬虫架构
1. Scrapy爬虫结构
2. 创建爬虫模块
3. 选择器
4. 构建Item Pipeline
5. 请求与相应
案例3:Scrapy爬虫
四、爬取结果的处理
到目前为止,我们处理的还都是规范数据,但现实是,我们面对更多的是样式不规范的数据,放弃不符合预期的数据并不是一个长久之计。在我们无法挑选数据时,这一章的内容就显得格外有用了。一个长句中究竟包含了哪些有效信息?一条评价反映出客户怎样的态度?接下来的内容将介绍一些工具和方法,帮助我们控制或筛选进入视线的数据,为后续的数据分析做准备。
第7章 数据清洗
1. 清洗结构化数据
2. 清洗非结构化数据
3. 数据标准化
案例4:计算词频
第8章 自然语言处理入门
1. 获取文本语料
2. 加工原始文本
3. 从文本中提取信息
案例5:情感分析
优惠信息:
现场班老学员9折优惠;
同一单位三人以上同时报名9折优惠;
以上优惠不叠加。
报名流程:
1. 点击“我要报名”,网上提交报名信息;
2. 订单缴费;
3. 缴费确认,开课前一周发送软件准备,电子版讲义;
4. 现场领取发票及邀请函。
联系方式:
魏老师
QQ:2881989714
Tel:010-68478566
Mail:vip@pinggu.org
CDA学员免费下载查看报告全文:2026全球数智化人才指数报告【CDA数据科学研究院】.pdf
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数字化时代,数据已成为企业决策的核心驱动力,数据分析与数据挖掘作为解锁数据价值的关键手段,广泛应用于互联网、金融、医疗 ...
2026-04-17在数据处理、后端开发、报表生成与自动化脚本中,将 SQL 查询结果转换为字符串是一项高频且实用的操作。无论是拼接多行数据为逗 ...
2026-04-17面对一份上万行的销售明细表,要快速回答“哪个地区卖得最好”“哪款产品增长最快”“不同客户类型的购买力如何”——这些看似复 ...
2026-04-17数据分析师一天的工作,80% 的时间围绕表格结构数据展开。从一张销售明细表到一份完整的分析报告,表格结构数据贯穿始终。但你真 ...
2026-04-16在机器学习无监督学习领域,Kmeans聚类因其原理简洁、计算高效、可扩展性强的优势,成为数据聚类任务中的主流算法,广泛应用于用 ...
2026-04-16在机器学习建模实践中,特征工程是决定模型性能的核心环节之一。面对高维数据集,冗余特征、无关特征不仅会增加模型训练成本、延 ...
2026-04-16在数字化时代,用户是产品的核心资产,用户运营的本质的是通过科学的指标监测、分析与优化,实现“拉新、促活、留存、转化、复购 ...
2026-04-15在企业数字化转型、系统架构设计、数据治理与AI落地过程中,数据模型、本体模型、业务模型是三大核心基础模型,三者相互支撑、各 ...
2026-04-15数据分析师的一天,80%的时间花在表格数据上,但80%的坑也踩在表格数据上。 如果你分不清数值型和文本型的区别,不知道数据从哪 ...
2026-04-15在人工智能与机器学习落地过程中,模型质量直接决定了应用效果的优劣——无论是分类、回归、生成式模型,还是推荐、预测类模型, ...
2026-04-14在Python网络编程、接口测试、爬虫开发等场景中,HTTP请求的发送与响应处理是核心需求。Requests库作为Python生态中最流行的HTTP ...
2026-04-14 很多新人学完Python、SQL,拿到一张Excel表还是不知从何下手。 其实,90%的商业分析问题,都藏在表格的结构里。 ” 引言:为 ...
2026-04-14在回归分析中,因子(即自变量)的筛选是构建高效、可靠回归模型的核心步骤——实际分析场景中,往往存在多个候选因子,其中部分 ...
2026-04-13在机器学习模型开发过程中,过拟合是制约模型泛化能力的核心痛点——模型过度学习训练数据中的噪声与偶然细节,导致在训练集上表 ...
2026-04-13在数据驱动商业升级的今天,商业数据分析已成为企业精细化运营、科学决策的核心手段,而一套规范、高效的商业数据分析总体流程, ...
2026-04-13主讲人简介 张冲,海归统计学硕士,CDA 认证数据分析师,前云南白药集团资深数据分析师,自媒体 Python 讲师,全网课程播放量破 ...
2026-04-13在数据可视化与业务分析中,同比分析是衡量业务发展趋势、识别周期波动的核心手段,其核心逻辑是将当前周期数据与上年同期数据进 ...
2026-04-13在机器学习模型的落地应用中,预测精度并非衡量模型可靠性的唯一标准,不确定性分析同样不可或缺。尤其是在医疗诊断、自动驾驶、 ...
2026-04-10数据本身是沉默的,唯有通过有效的呈现方式,才能让其背后的规律、趋势与价值被看见、被理解、被运用。统计制图(数据可视化)作 ...
2026-04-10在全球化深度发展的今天,跨文化传播已成为连接不同文明、促进多元共生的核心纽带,其研究核心围绕“信息传递、文化解读、意义建 ...
2026-04-09