python办公自动化｜批量处理文件，一学就会-CDA数据分析师官网

python办公自动化｜批量处理文件，一学就会

2020-10-15

作者：刘早起

来源：早起Python

大家好，又到了python办公自动化专题。要说在工作中最让人头疼的就是用同样的方式处理一堆文件夹中文件，这并不难，但就是繁。所以在遇到机械式的操作时一定要记得使用Python来合理偷懒！今天我将以处理微博热搜数据来示例如何使用Python批量处理文件夹中的文件，主要将涉及：

Python批量读取不同文件夹(⭐⭐⭐)
Pandas数据处理(⭐⭐)
Python操作Markdown文件(⭐)

需求分析

首先来说明一下需要完成的任务，下面是我们的文件夹结构

因为微博历史热搜是没有办法去爬的，所以只能写一个爬虫每天定时爬取热搜并保存，所以在我当时分析数据时使用的就是上图展示的数据，每天的数据以套娃形式被保存在三级目录下，并且热搜是以markdown文件存储的，打开是这样

而我要做的就是将这三个月的微博热搜数据处理成这样

这困难吗，手动的话无非是依次点三下进入每天的数据文件夹再打开md文件手动复制粘贴进Excel，不就几万条数据，大不了一天不吃饭也能搞定！现在我们来看看如何用Python光速处理。

Python实现

在操作之前我们来思考一下如何使用Python实现，其实和手动的过程类似：先读取全部文件，再对每一天的数据处理、保存。所以第一步就是将我们需要的全部文件路径提取出来，首先导入相关库

import pandas as pd
import os
import glob
from pathlib import Path

读取全部文件名的方法有很多比如使用OS模块

但是由于我们是多层文件夹，使用OS模块只能一层一层读取，要写多个循环从而效率不高，所以我们告别os.path使用Pathlib来操作，三行代码就能搞定，看注释

from pathlib import Path
 
p = Path("/Users/liuhuanshuo/Desktop/热搜数据/") #初始化构造Path对象

FileList=list(p.glob("**/*.md")) #得到所有的markdown文件

来看下结果

成功读取了热搜数据下多层文件夹中的全部md文件！但是新的问题来了，每天有两条热搜汇总，一个11点一个23点，考虑到会有重合数据所以我们在处理之前先进行去重，而这就简单了，不管使用正则表达式还是按照奇偶位置提取都行，这里我是用lambda表达式一行代码搞定。

filelist = list(filter(lambda x: str(x).find("23点") >= 0, FileList))

现在我们每天就只剩下23点的热搜数据，虽然是markdown文件，但是Python依旧能够轻松处理，我们打开其中一个来看看。

打开方式和其他文件类似使用with语句，返回一个list，但是这个list并不能直接为我们所用，第一个元素包含时间，后面每天的热搜和热度也不是直接存储，含有markdown语法中的一些没用的符号和换行符，而清洗这些数据就是常规操作了，使用下面的代码即可，主要就是使用正则表达式，看注释：

with open(file) as f:
    lines = f.readlines()
    lines = [i.strip() for i in lines] #去除空字符
    data = list(filter(None, lines))
    del data[0]
    data = data[0:100]
    date = re.findall('年(.+)2',str(file))[0]
    content = data[::2] #奇偶分割
    rank = data[1::2]
        #提取内容与排名
    for i in range(len(content)):
            content[i] = re.findall('、(.+)',content[i])[0]
    for i in range(len(rank)):
            rank[i] = re.findall(' (.+)',rank[i])[0]

最后只需要写一个循环遍历每一天的文件并进行清洗，再创建一个DataFrame用于存储每天的数据即可。

可以看到，并没有使用太复杂的代码就成功实现了我们的需求！

结束语

以上就是使用Python再一次解放双手并成功偷懒的案例，可能读取Markdown文件在你的日常工作中并用不到，但是通过本案例希望你能学会如何批量处理文件夹，批量读取清洗数据。更重要的是在你的工作学习中，遇到需要重复操作的任务时，是否能够想起使用Python来自动化解决！拜拜，我们下个案例见～

想从事业务型数据分析师，您可以点击>>>“数据分析师”了解课程详情；

想从事大数据分析师，您可以点击>>>“大数据就业”了解课程详情；

想成为人工智能工程师，您可以点击>>>“人工智能就业”了解课程详情；

想了解Python数据分析，您可以点击>>>“Python数据分析师”了解课程详情；

想咨询互联网运营，你可以点击>>>“互联网运营就业班”了解课程详情；

想了解更多优质课程，请点击>>>

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想查询CDA考试成绩，点击>>> “CDA成绩” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想获取CDA考试时间/费用/条件/大纲/通过率，点击 >>>“CDA考试官网” 了解CDA考试详情；

数据分析数据处理正则表达式人工智能需求分析 pandas DataFrame python

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇python为什么不用分号作终止符？

下一篇python在计算内存时应该注意的问题？

python办公自动化｜批量处理文件，一学就会

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】指标波动归因分析：数据背后的故事 ...

数据分析学习指南：从踩坑到精通的成长之路 ...

数据分析学习指南

Deepseek如何帮助公司深入挖掘用户价值？ ...

【干货】Deepseek教我数据可视化看板实时更新 ...

一秒精通 Deepseek

Deepseek教我自学Python，貌似30天就够了 ...

【干货】2步学会构成分析，找到业务增长关键 ...

【2月】CDA网校2025 数据分析组队打卡学习活动第4期 ...

【干货】画用户画像与找相亲对象一样简单 ...

统计分析与数据挖掘的联系与区别

【干货】5分钟学会数据分析方法之【对比分析法】 ...

【干货】半监督学习（下）Label Spreading ...

【干货】用半监督学习方法处理标签（上）Label Prop ...

【干货】掌握这50个常用Excel函数，你的Excel就无敌 ...

【干货】7类常见的统计分析错误

【干货】“数据敏感”不是天赋！如何培养数据敏感度 ...

【干货】2025年必学技能：想转行数据分析看过来！ ...

【面试】秋招年薪50万，央企数据分析岗成功上岸！ ...

【干货】大厂数据分析师面试，最常犯的2个技术错误 ...