来源:数据STUDIO
作者:云朵君
工作中,当你需要对某个文件夹或多个文件夹内的大量类似文件做相同操作(增删改查)时,你还在拼命加班做一个没有感情的工具人嘛?掌握以下几个操作,瞬间完成任务,然后你就可以摸鱼去了。
运用Python进行批量处理,无疑是减少了无限的工作量,将枯燥无味,重复性工作交给机器。你只需要花几分钟时间编写几行代码,轻松摆脱工具人,这就是办公自动化的魅力所在。
在介绍批量处理文件之前,先介绍下Python文件IO的一般操作。
import os
1.os.getcwd( )
方法获取代码当前工作路径
2.os.listdir(path)
获取当前工作文件夹内的文件夹或文件。
用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。它不包括 '.' 和'..'即使它在文件夹中。
3.os.makedirs(path, mode=0o777)
用于递归创建目录。
如果子目录创建失败或者已经存在,会抛出一个 OSError 的异常,Windows上Error 183 即为目录已经存在的异常错误。
如果第一个参数 path 只有一级,则 mkdir() 函数相同。
4.os.mkdir(path[, mode])
用于以数字权限模式创建目录。
默认的模式为 0777 (八进制)。如果目录有多级,则创建最后一级,如果最后一级目录的上级目录有不存在的,则会抛出一个 OSError。
5.os.walk(top[, topdown=True[, onerror=None[, followlinks=False]]])
是一个简单易用的文件、目录遍历器,可以帮助我们高效的处理文件、目录方面的事情。
可以创建一个生成器,用以生成所要查找的目录及其子目录下的所有文件。
用于通过在目录树中游走输出在目录中的文件名,向上或者向下。
6.os.chdir(path)
用于改变当前工作目录到指定的路径。
7.os.path.abspath(path)
返回绝对路径
8.os.path.dirname(path)
返回文件路径
9.os.path.join(path1[, path2[, ...]])
把目录和文件名合成一个路径
10.os.path.split(path)
把路径分割成 dirname 和 basename,返回一个元组
11.os.path.splitext(path)
分割路径中的文件名与拓展名
12.os.path.walk(path, visit, arg)
遍历path,进入每个目录都调用visit函数,visit函数必须有3个参数(arg, dirname, names),dirname表示当前目录的目录名,names代表当前目录下的所有文件名,args则为walk的第三个参数。
13.os.path.exists(path)
路径存在则返回True,路径损坏返回False。
当一个文件夹中含有多种类型的文件,以下列举几个,有时候实际情况比这更多更复杂,我们需要找到需要的格式文件比较困难,因此批量获取指定后缀名的文件显得尤其重要。
import os def find_file(work_dir, extension='jpg'): """
获取指定后缀名的文件
:param work_dir:传递当前目录
:param extension:指定的后缀名
:return: 返回所有目录下的文件
""" # 空列表用以存储获取到的文件名 lst = []
for filename in os.listdir(work_dir):
# 指定文件夹中的文件名逐一打印 print(filename)
# 获取得到文件后缀 splits = os.path.splitext(filename)
file_ext = splits[1] # 拿到扩展名 if file_ext == '.' + extension:
lst.append(filename)
return lst
函数运用
>>> In: find_file('./批处理')
.ipynb_checkpoints
Data STUDIO.jpg
logger.py
MySQL.zip
svm.pptx
test.csv
text.xls
text.xlsx
关注《数据STUDIO》.gif
成都市地图.html
批处理.ipynb
控规图.dwg >>> Out: ['Data STUDIO.jpg']
此方法是获取指定后缀名的文件的一个应用,获取到指定后缀名的文件后对相应文件作一个修改。
import os def batch_rename(work_dir, old_ext ='.xls', new_ext='.xlsx'): """
批量重命名后缀
:param work_dir:传递当前目录
:param old_ext:原来后缀名
:param new_ext:新的后缀名后
""" for filename in os.listdir(work_dir):
# 获取得到文件后缀 split_file = os.path.splitext(filename)
file_ext = split_file[1]
# 定位后缀名为old_ext 的文件 if old_ext == file_ext:
# 修改后文件的完整名称 newfile = split_file[0] + new_ext
# 实现重命名操作 os.rename(
os.path.join(work_dir, filename),
os.path.join(work_dir, newfile)
)
print("完成重命名")
print(os.listdir(work_dir))
如果将其中的file_ext = split_file[1]改为file_name = split_file[0],后面再做相应的修改,可以变成批量修改文件名称。
这里演示os.walk(path) 的应用。有时我们需要获取某个具有好几个层级的目录下的所有文件,根据条件筛选出某个目标文件,对其做相应的操作。这里演示获取文件的修改时间。
# 获取目录下文件的修改时间 import os
from datetime import datetime print(f"当前时间:{datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
def get_modify_time(indir):
for root, _, files in os.walk(indir): # 循环D:批处理目录和子目录 for file in files:
absfile = os.path.join(root, file)
modtime = datetime.fromtimestamp(os.path.getmtime(absfile))
now = datetime.now()
difftime = now-modtime
if difftime.days < 20: # 条件筛选超过指定时间的文件 print(f"""{absfile}
修改时间[{modtime.strftime('%Y-%m-%d %H:%M:%S')}]
距今[{difftime.days:3d}天{difftime.seconds//3600:2d}时
{difftime.seconds%3600//60:2d}]""" ) # 打印相关信息 get_modify_time('./批处理')
输出
当前时间:2021-02-05 19:21:48 ./MySQL.zip修改时间[2021-01-29 16:46:13]距今[ 7天 3时35]
./svm.pptx修改时间[2021-01-21 10:22:12]距今[ 15天 8时59] ./test.csv修改时间[2021-01-25 18:36:40]距今[ 11天 0时45] ./关注《数据STUDIO》.gif修改时间[2021-02-04 11:14:07]距今[ 1天 8时 7] ./批处理.ipynb修改时间[2021-02-05 19:21:44]距今[ 0天 0时 0] ./.ipynb_checkpoints批处理-checkpoint.ipynb修改时间[2021-02-05 19:57:42]距今[ 0天 0时24]
这里同样运用到os.path.walk(path) 。
另外一个用来做压缩和解压的Python模块--zipfile
压缩文件
zipfile.ZipFile(file[, mode[, compression[, allowZip64]]])
有如下常用方法
ZipFile.infolist()获取zip文档内所有文件的信息,返回一个zipfile.ZipInfo的列表
ZipFile.namelist() 获取zip文档内所有文件的名称列表
ZipFile.printdir()将zip文档内的信息打印到控制台上
import zipfile # 加载压缩文件,创建ZipFile对象 file_dir = './Data STUDIO.zip' zipFile = zipfile.ZipFile(file_dir) print('info:',zipFile.infolist()) print('name:',zipFile.namelist()) print('dir:',zipFile.printdir())
输出
info: [<ZipInfo filename='Data STUDIO.jpg' compress_type=deflate external_attr=0x20 file_size=791106 compress_size=336551>] name: ['Data STUDIO.jpg'] File Name Modified Size Data STUDIO.jpg 2020-11-03 10:01:00 791106 dir: None
解压文件
ZipFile.extract(member[, path[, pwd]])
将zip文档内的指定文件解压到当前目录。
下面一个例子将保存在程序根目录下的text.zip内的所有文件解压到D:/Work 目录
import zipfile import os
zipFile = zipfile.ZipFile(file_dir) for file in zipFile.namelist():
zipFile.extract(file, 'd:/Work')
zipFile.close()
另一种解压zip文档中的所有文件到当前目录:
ZipFile.extractall([path[, members[, pwd]]])
members的默认值为zip文档内的所有文件名称列表,也可以自己设置,选择要解压的文件名称
批量压缩文件
import zipfile # 导入zipfile,这个是用来做压缩和解压的Python模块; import os import time def batch_zip(start_dir): start_dir = start_dir # 要压缩的文件夹路径 file_news = start_dir + '.zip' # 压缩后文件夹的名字 z = zipfile.ZipFile(file_news, 'w', zipfile.ZIP_DEFLATED)
for dir_path, dir_names, file_names in os.path.walk(start_dir):
print(dir_path)
print(dir_names)
print(file_names)
# 这一句很重要,不replace的话,就从根目录开始复制 f_path = dir_path.replace(start_dir, '')
# 实现当前文件夹以及包含的所有文件的压缩 f_path = f_path and f_path + os.sep
for filename in file_names:
z.write(os.path.join(dir_path, filename), f_path + filename)
z.close()
return file_news
batch_zip('E:/批处理/test')
输出
E:/批处理/test []
['Data STUDIO.jpg', 'logger.py', 'MySQL.zip', 'svm.pptx', 'test.csv', 'text.xls', 'text.xlsx', '关注《数据STUDIO》.gif', '成都市地图.html', '控规图.dwg'] 'E:/批处理/test.zip'
检验压缩效果。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
随着数字化转型的加速,企业积累了海量数据,如何从这些数据中挖掘有价值的信息,成为企业提升竞争力的关键。CDA认证考试体系应 ...
2025-03-10推荐学习书籍 《CDA一级教材》在线电子版正式上线CDA网校,为你提供系统、实用、前沿的学习资源,助你轻松迈入数据分析的大门! ...
2025-03-07在数据驱动决策的时代,掌握多样的数据分析方法,就如同拥有了开启宝藏的多把钥匙,能帮助我们从海量数据中挖掘出关键信息,本 ...
2025-03-06在备考 CDA 考试的漫漫征途上,拥有一套契合考试大纲的优质模拟题库,其重要性不言而喻。它恰似黑夜里熠熠生辉的启明星,为每一 ...
2025-03-05“纲举目张,执本末从。”若想在数据分析领域有所收获,一套合适的学习教材至关重要。一套优质且契合需求的学习教材无疑是那关 ...
2025-03-04以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-04在现代商业环境中,数据分析师的角色愈发重要。数据分析师通过解读数据,帮助企业做出更明智的决策。因此,考取数据分析师证书成为了许多人提升职业竞争力的选择。本文将详细介绍考取数据分析师证书的过程,包括了解证书种类和 ...
2025-03-03在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2025-03-03数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-03-032025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-03-03大数据分析师培训旨在培养学员掌握大数据分析的基础知识、技术及应用能力,以适应企业对数据分析人才的需求。根据不同的培训需求 ...
2025-03-03小伙伴们,最近被《哪吒2》刷屏了吧!这部电影不仅在国内掀起观影热潮,还在全球范围内引发了关注,成为中国电影崛起的又一里程 ...
2025-03-03以下的文章内容来源于张彦存老师的专栏,如果您想阅读专栏《Python 数据可视化 18 讲(PyEcharts、Matplotlib、Seaborn)》,点 ...
2025-02-28最近,国产AI模型DeepSeek爆火,其创始人梁文峰走进大众视野。《黑神话:悟空》制作人冯骥盛赞DeepSeek为“国运级别的科技成果” ...
2025-02-271.统计学简介 听说你已经被统计学劝退,被Python唬住……先别着急划走,看完这篇再说! 先说结论,大多数情况下的学不会都不是知 ...
2025-02-27“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩稳定, ...
2025-02-26在数据分析工作中,你可能经常遇到这样的问题: 从浏览到消费的转化率一直很低,那到底该优化哪里呢? 如果你要投放广告该怎么 ...
2025-02-25近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的,尤 ...
2025-02-25挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-25在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-25