Python爬虫正则表达式常用符号和方法-CDA数据分析师官网

热线电话：13121318867

Python爬虫正则表达式常用符号和方法

2017-09-03

Python爬虫正则表达式常用符号和方法

在 python语言中，我们经常会用到python爬虫的正则表达式，下面小编通过本篇文章给大家介绍python爬虫正则表达式常用的符号和方法，以及具体用法，感兴趣的童鞋快来看看吧。

正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具，拥有自己独特的语法以及一个独立的处理引擎，效率上可能不如str自带的方法，但功能十分强大。得益于这一点，在提供了正则表达式的语言里，正则表达式的语法都是一样的，区别只在于不同的编程语言实现支持的语法数量不同；但不用担心，不被支持的语法通常是不常用的部分。

1、常用符号

. ：匹配任意字符，换行符 \n 除外

：匹配前一个字符0次或无限次
? ：匹配前一个字符0次或1次

.* ：贪心算法，尽可能的匹配多的字符

.*? ：非贪心算法

() ：括号内的数据作为结果返回

2、常用方法

findall：匹配所有符合规律的内容，返回包含结果的列表

Search：匹配并提取第一个符合规律的内容，返回一个正则表达式对象

Sub：替换符合规律的内容，返回替换后的值

3、使用示例

（1）. 的使用举例，匹配任意字符，换行符 \n 除外

import re #导入re库文件

a = 'xy123'

b = re.findall('x..',a)

print b

打印的结果为：['xy1'] ，每个 . 表示一个占位符

（2） * 的使用举例，匹配前一个字符0次或无限次

a = 'xyxy123'

b = re.findall('x*',a)

print b

打印的结果为：['x', '', 'x', '', '', '', '', '']

（3） ? 的使用举例，匹配前一个字符0次或1次

a = 'xy123'

b = re.findall('x?',a)

print b

打印的结果为：['x', '', '', '', '', '']

（4） .* 的使用举例

secret_code = 'hadkfalifexxIxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse'

b = re.findall('xx.*xx',secret_code)

print b

打印的结果为：['xxIxxfasdjifja134xxlovexx23345sdfxxyouxx']

（5）.*？的使用举例

secret_code = 'hadkfalifexxIxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse'

c = re.findall('xx.*?xx',secret_code)

print c

打印的结果为：['xxIxx', 'xxlovexx', 'xxyouxx']

（6） ()的使用举例

secret_code = 'hadkfalifexxIxxfasdjifja134xxlovexx23345sdfxxyouxx8dfse'

d = re.findall('xx(.*?)xx',secret_code)

print d

打印的结果为：['I', 'love', 'you'] ，括号内的数据作为返回的结果

（7） re.S的使用举例

s = '''sdfxxhello

xxfsdfxxworldxxasdf'''

d = re.findall('xx(.*?)xx',s,re.S)

print d

打印的结果为：['hello\n', 'world'] ，re.S的作用是使 . 在匹配时包括 \n

（8） findall的使用举例

s2 = 'asdfxxIxx123xxlovexxdfd'

f2 = re.findall('xx(. ?)xx123xx(. ?)xx',s2)

print f20

打印的结果为：love

这时f2为含有一个元组的列表，该元组包含两个元素，该元组中的两个元素为两个()匹配到的内容，如果s2包含多个'xx(. ?)xx123xx(. ?)xx'这样的子串，则f2包含多个元组；

（9） search的使用举例

s2 = 'asdfxxIxx123xxlovexxdfd'

f = re.search('xx(. ?)xx123xx(. ?)xx',s2).group(2)

print f

打印的结果为：love

.group(2) 表示返回第二个括号匹配到的内容，如果是 .group(1), 则打印的就是：I

（10）sub的使用举例

s = '123rrrrr123'

output = re.sub('123(.*?)123','123%d123'%789,s)

print output

打印的结果为：123789123

其中的%d类似于C语言中的%d，如果 output=re.sub('123(.*?)123','123789123',s)，输出结果也为： 123789123

（11） \d 的使用举例，用于匹配数字

a = 'asdfasf1234567fasd555fas'

b = re.findall('(\d+)',a)

print b

打印的结果为：['1234567', '555'] ， \d+ 可以匹配数字字符串；

以上就是python爬虫正则表达式的一些常用符号和语法，希望对python初学者学习有所帮助。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

正则表达式 python

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

Python爬虫正则表达式常用符号和方法

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

从表格到洞察：数据分析师视角下的表格结构数据特征 ...

【CDA干货】最大最小距离法在Kmeans聚类中的应用困 ...

【CDA干货】随机森林特征重要性分析：原理、方法与 ...

【CDA干货】用户运营核心指标：拆解、应用与优化， ...

【CDA干货】数据模型、本体模型与业务模型：区别厘 ...

表格结构数据进阶：从类型识别到功能实战 ...

【CDA干货】模型质量测试对比：方法、维度与实操指 ...

【CDA干货】Python Requests库全方位对比解析：用法 ...

数据分析第一步：你真的读懂“表格结构数据”了吗？ ...

【CDA干货】回归方程筛选主要因子：方法、计算流程 ...

【CDA干货】学习曲线：验证机器学习模型过拟合的核 ...

流程为脉，专业为核：CDA数据分析师赋能商业数据分 ...

案例分享会 | 医疗行业数据分析实践（2026.04.09） ...

【CDA干货】Tableau两列数据求同比：实操方法、场景 ...

【CDA干货】集成学习赋能模型不确定性分析：原理、 ...

可视化传声，专业赋能：CDA数据分析师玩转统计制图 ...

【CDA干货】文本挖掘技术赋能跨文化传播研究：理论 ...

【CDA干货】Python ECharts折线图：为每个数据点设 ...

范式为纲，专业为器：CDA数据分析师玩转数据分析基 ...

【CDA干货】LSTM预测结果波动：成因解析、影响评估 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载