热线电话：13121318867

Python爬虫利器BeautifulSoup解析！

2020-05-14

BeautifulSoup是一种可以从html和xml中快速提取内容的python库，共有四种类型，对于爬虫解析来说，主要用其中的遍历文档树和搜索文档树。

来自BeautifulSoup的官方的一个示例，使用的是HTML文本

The Dormouse's story

Once upon a time there were three little sisters; and their names were

Elsie,
Lacie and
Tillie;

and they lived at the bottom of a well.

...

1.导入模块 from bs4import BeautifulSoup

2.创建beautifulsoup对象

beautifulobj = BeautifulSoup(html_doc)#

print(type(beautifulobj))#beautifulsoup'="">

print(beautifulobj.prettify())#打印按照lxml格式的补全代码，太长，省略

说明：此处在创建对象时未指定解析器，默认使用的是python自带的解析器html.parse,原因在于新买的电脑安装lxml模块时失败，官方推荐使用lxml解析器，可通过

beautifulobj = BeautifulSoup(html_doc,"lxml")来指定lxml解析器解析。

Python爬虫利器BeautifulSoup有四种类型，它们分别是Tag，BeautifulSoup，NavigableString，comment。

Tag类型即节点，比如HTML中的a标签、p标签等等，tag类型主要有两个属性，name和attributes属性，可通过.name和.attrs方法获取属性值，其中.attrs返回字典类型，并且如果是多值属性的话，其value是一个列表；也可通过["href"]指定输出特定的属性值。

print(type(beautifulobj.a))#

print(beautifulobj.p.name)#p，这样的使用方式，我是懵的，自己都敲进去P标签了，感觉自己有点**

print(beautifulobj.p.attrs)#，返回一个字典，字典的value有可能是个list， {'class': ['title']}class是个多值属性

print(beautifulobj.p["class"])#['title'],此处是个列表，如果不是多值属性，输出就是字符串

print(beautifulobj.a["id"])#link1

BeautifulSoup类型是整个文档的根形式，一种特殊的Tag类型,支持遍历文档树和搜索文档树的大部分方法，但是没有name和attrs属性。

print(type(beautifulobj))#beautifulsoup'="">

NavigableString是tag中的字符串内容形式。

print(type(beautifulobj.p.string))#

comment是文档中的备注类型。

在使用.string时，可同样输出NavigableString和coment类型，如果获取特定的内容而又想与另一种类型区别对待时必须通过type来进行判断。

BeautifulSoup是爬虫必学的技能之一，大家可以多多了解。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

beautifulsoup python

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇JavaScript教程中的同步加载和异步加载！

下一篇爬虫解析库xpath功能很强大吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

Python爬虫利器BeautifulSoup解析！

来自BeautifulSoup的官方的一个示例，使用的是HTML文本

Python爬虫利器BeautifulSoup有四种类型，它们分别是Tag，BeautifulSoup，NavigableString，comment。

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】因子分析如何分组：核心原理、实操流程 ...

【CDA干货】数据赋能营销：从经验决策到科学增长的 ...

CDA数据分析师：用好相关系数，精准挖掘变量关联、 ...

【CDA干货】数据分析与A/B测试：相辅相成的数据决策 ...

【CDA干货】卡方检验是显著性检验吗？一文厘清定义 ...

CDA数据分析师：方差分析与F检验，多组数据差异验证 ...

【CDA干货】Excel如何创建稳定备注列：适配动态更新 ...

【CDA干货】Tableau实用案例全解：从业务场景到可视 ...

CDA数据分析师：列联表分析与卡方检验，破解分类变 ...

【CDA干货】数据清洗全指南：基础核心+常用工具实操 ...

【CDA干货】数据挖掘与数据分析：区别、联系与职场 ...

CDA数据分析师：精通统计制图，让数据规律直观可感 ...

【CDA干货】MySQL分区键后，其他索引还生效吗？真相 ...

【CDA干货】Tableau同比环比增长率实操全指南：从入 ...

CDA数据分析师：特征处理实操指南，打通数据到价值 ...

【CDA干货】机器学习算法工程实用案例解析：从落地 ...

【CDA干货】卷积神经网络与无迹卡尔曼滤波融合：原 ...

CDA数据分析师：数据清洗实操指南，筑牢数据分析的 ...

【CDA干货】决策树模型变量重要性排序：原理、方法 ...

【CDA干货】Excel卡方检验实操全指南：从原理到落地 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载