热线电话：13121318867

开眼界！Python遍历文件可以这样做

2021-03-23

来源：【公众号】

Python技术

Python 对于文件夹或者文件的遍历一般有两种操作方法，一种是至二级利用其封装好的 walk 方法操作：

import os for root,dirs,files in os.walk("/Users/cxhuan/Downloads/globtest/hello"):
    for dir in dirs:
        print(os.path.join(root, dir))
    for file in files:
        print(os.path.join(root, file))

上面代码运行结果如下：

/Users/cxhuan/Downloads/globtest/hello/world /Users/cxhuan/Downloads/globtest/hello/.DS_Store
/Users/cxhuan/Downloads/globtest/hello/hello3.txt
/Users/cxhuan/Downloads/globtest/hello/hello2.txt
/Users/cxhuan/Downloads/globtest/hello/hello1.txt
/Users/cxhuan/Downloads/globtest/hello/world/world1.txt
/Users/cxhuan/Downloads/globtest/hello/world/world3.txt
/Users/cxhuan/Downloads/globtest/hello/world/world2.txt

上述程序，将 os.walk 读取到的所有路径 root 、目录名 dirs 与文件名 files ，也就是三个文件数组利用 foreach 循环输出。join方法就是将其路径与目录名或者文件名连接起来，组成一个完整的目录。

另一种是用递归的思路，写成下面的形式：

import os files = list()
def dirAll(pathname):
    if os.path.exists(pathname):
        filelist = os.listdir(pathname)
        for f in filelist:
            f = os.path.join(pathname, f)
            if os.path.isdir(f):
                dirAll(f)
            else:
                dirname = os.path.dirname(f)
                baseName = os.path.basename(f)
                if dirname.endswith(os.sep):
                    files.append(dirname+baseName)
                else:
                    files.append(dirname+os.sep+baseName)


dirAll("/Users/cxhuan/Downloads/globtest/hello") for f in files:
    print(f)

运行上面代码，得到的结果和上面一样。

这两种方法都没问题，就是写起来比较麻烦，特别是第二种，一不小心还有可能写出 bug 。

今天我们来介绍第三种方法——利用 glob 模块来遍历文件。

简介

glob 是 python 自带的一个操作文件的模块，以简洁实用著称。由于这个模块的功能比较简单，所以也很容易上手和使用。它主要用来查找符合特定规则的文件路径。使用这个模块来查找文件，只需要用到*、? 和 [] 这三个匹配符：

 * ： 匹配0个或多个字符；
 ? ： 匹配单个字符；
 [] ：匹配指定范围内的字符，如：[0-9]匹配数字。

glob.glob 方法

glob.glob 方法主要返回所有匹配的文件路径列表。它只有一个参数 pathname ，定义了文件路径匹配规则，这里可以是绝对路径，也可以是相对路径。

使用 * 匹配

我们可以用 * 匹配零个或者多个字符。

for p1 in glob.glob('/Users/cxhuan/Downloads/globtest/*'):
    print(p1)

运行上面代码，会将 globtest 文件夹下仅有的目录输出出来，输出内容如下：

/Users/cxhuan/Downloads/globtest/hello

我们也可以通过制定层级来遍历文件或者文件夹：

for p in glob.glob('/Users/cxhuan/Downloads/globtest/*/*'):
    print(p)

上面的代码会遍历 globtest 文件夹以及子文件夹，将所有的文件或文件夹路径打印出来：

/Users/cxhuan/Downloads/globtest/hello/world
/Users/cxhuan/Downloads/globtest/hello/hello3.txt
/Users/cxhuan/Downloads/globtest/hello/hello2.txt
/Users/cxhuan/Downloads/globtest/hello/hello1.txt

我们也可以对文件或者文件夹进行过滤:

for p in glob.glob('/Users/cxhuan/Downloads/globtest/hello/*3.txt'):
    print(p)

上面代码值匹配 hello 目录下的文件名末尾为 ‘3’ 的 txt 文件，运行结果如下：

/Users/cxhuan/Downloads/globtest/hello/hello3.txt

使用 ? 匹配

我们可以用问号(?)匹配任何单个的字符。

for p in glob.glob('/Users/cxhuan/Downloads/globtest/hello/hello?.txt'):
    print(p)

上面的代码输出 hello 目录下的以 ‘hello’ 开头的 txt 文件，输出结果如下：

/Users/cxhuan/Downloads/globtest/hello/hello3.txt
/Users/cxhuan/Downloads/globtest/hello/hello2.txt
/Users/cxhuan/Downloads/globtest/hello/hello1.txt

使用 [] 匹配

我们可以使用 [] 来匹配一个范围：

for p in glob.glob('/Users/cxhuan/Downloads/globtest/hello/*[0-2].*'):
    print(p)

我们想要得到 hello 目录下的文件名结尾数字的范围为 0到2的文件，运行上面代码，获得的输出为：

/Users/cxhuan/Downloads/globtest/hello/hello2.txt
/Users/cxhuan/Downloads/globtest/hello/hello1.txt

glob.iglob 方法

python 的 glob 方法可以对文件夹下所有文件进行遍历，并返回一个 list 列表。而 iglob 方法一次只获取一个匹配路径。下面是一个简单的例子来说明二者的区别：

p = glob.glob('/Users/cxhuan/Downloads/globtest/hello/hello?.*') print(p) print('----------------------')

p = glob.iglob('/Users/cxhuan/Downloads/globtest/hello/hello?.*') print(p)

运行上面代码，结果返回是：

['/Users/cxhuan/Downloads/globtest/hello/hello3.txt', '/Users/cxhuan/Downloads/globtest/hello/hello2.txt',

 '/Users/cxhuan/Downloads/globtest/hello/hello1.txt'] ---------------------- <generator

 object _iglob at 0x1040d8ac0>

从上面的结果我们可以很容易看到二者的区别，前者返回的是一个列表，后者返回的是一个可迭代对象。

我们针对这个可迭代对象做一下操作看看：

p = glob.iglob('/Users/cxhuan/Downloads/globtest/hello/hello?.*') print(p.__next__()) print(p.__next__())

运行结果如下：

/Users/cxhuan/Downloads/globtest/hello/hello3.txt
/Users/cxhuan/Downloads/globtest/hello/hello2.txt

我们可以看到，针对这个可迭代对象，我们一次可以获取到一个元素。这样做的好处是节省内存，试想如果一个路径下有大量的文件夹或者文件，我们使用这个迭代对象不用一次性全部获取到内存，而是可以慢慢获取。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

python

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇牛津大学科普 | 几分钟带你了解：什么是机器学习

下一篇想要月薪过万，如何选择适合自己的发展道路？这份工作很适合你

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

开眼界！Python遍历文件可以这样做

简介

glob.glob 方法

使用 * 匹配

使用 ? 匹配

使用 [] 匹配

glob.iglob 方法

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA数据分析师：数据思维赋能企业管理，激活决策新 ...

【CDA干货】数据分析赋能价值创造：国内外知名经典 ...

【CDA干货】Python爬取163网易财经上市公司财务报表 ...

CDA数据分析师：数字化时代，数据思维的核心步骤与 ...

【CDA干货】线性回归拟合性判断实战指南：从指标解 ...

【CDA干货】安装SQL Server后提示“服务名无效”： ...

CDA数据分析师实操指南：指标体系搭建的方法与完整 ...

【CDA干货】销售额预测实战：基于时间序列与回归分 ...

【CDA干货】金融数据分析：为什么异常值处理是必做 ...

CDA数据分析师必备：指标与指标体系管理基础指南 ...

【CDA干货】数据呈现与数据分析：核心区别+实操边界 ...

【CDA干货】Pandas读取dat文件：提取第一行数据并转 ...

CDA数据分析师核心能力：数据建模实操指南，让数据 ...

【CDA干货】MySQL课时排序累加全指南：3种方法+实操 ...

【CDA干货】Tableau环比计算全指南：3种方法+实操步 ...

CDA数据分析师实操指南：从0到1开展数据治理，激活 ...

【CDA干货】方法验证核心统计：重复性用卡方分析， ...

【CDA干货】两组数据的单因素方差分析：什么时候用 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载