京公网安备 11010802034615号
经营许可证编号:京B2-20210330
来源:早起Python
作者:陈熹、刘早起
有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用Python也可以轻松搞定!
今天就跟大家系统分享几种Python提取 PDF 图片的方法。其实没有非常完美的方法,每种方法提取效率都不是百分之百,因此可以考虑用多种方法进行互补,主要将涉及:
基于 fitz 库和正则搜索提取图片基于 pdf2image 库的两种方法提取图片
fitz 是 pymupdf 的子模块,需要先用命令行安装 pymupdf:
pip install pymupdf
但注意导入时使用 import fitz 导入模块!
下面的代码就利用 fitz 库提取图片需要通过正则匹配图片元素,将模板元素转化为像素后再以图片形式写出
import fitz import re import os
file_path = r'C:xxxxxx.pdf' # PDF 文件路径 dir_path = r'C:xxx' # 存放图片的文件夹 def pdf2image1(path, pic_path):
checkIM = r"/Subtype(?= */Image)" pdf = fitz.open(path)
lenXREF = pdf._getXrefLength()
count = 1 for i in range(1, lenXREF):
text = pdf._getXrefString(i)
isImage = re.search(checkIM, text)
if not isImage:
continue pix = fitz.Pixmap(pdf, i)
new_name = f"img_{count}.png" pix.writePNG(os.path.join(pic_path, new_name))
count += 1 pix = None pdf2image1(file_path, dir_path)
运行提取示例文件后结果如下:
可以看到,有一些很小的色块也被提取成图片,那么怎么过滤掉它们呢?
有一个简单的方法是通过大小过滤,pix 像素在 fitz 库中存在一个重要的方法 pix.size 可以反映像素多少,简单的色素块该值较低,可以通过设置一个阈值过滤。以阈值 10000 为例过滤:
import fitz import re import os
file_path = r'C:xxxxxx.pdf' # PDF 文件路径 dir_path = r'C:xxx' # 存放图片的文件夹 def pdf2image1(path, pic_path):
checkIM = r"/Subtype(?= */Image)" pdf = fitz.open(path)
lenXREF = pdf._getXrefLength()
count = 1 for i in range(1, lenXREF):
text = pdf._getXrefString(i)
isImage = re.search(checkIM, text)
if not isImage:
continue pix = fitz.Pixmap(pdf, i)
if pix.size < 10000: # 在这里添加一处判断一个循环 continue # 不符合阈值则跳过至下
new_name = f"img_{count}.png" pix.writePNG(os.path.join(pic_path, new_name))
count += 1 pix = None pdf2image1(file_path, dir_path)
可以看到,全部图片都被正常提取!
一看名字就知道这个库的用处了,官方文档为https://www.cnpython.com/pypi/pdf2image
可以简单通过 pip install pdf2image 安装,但poppler才是真正起做用的转换器,因此需要额外安装和配置:
“
windows用户必须安装poppler for Windows,然后将bin/文件夹添加到PATHMac用户必须安装poppler for Mac
”
具体发挥作用的代码官方文档也给出了详细的说明:
那么我们就分别尝试这两种方法:
from pdf2image import convert_from_path,convert_from_bytes import tempfile from
pdf2image.exceptions import PDFInfoNotInstalledError,
PDFPageCountError, PDFSyntaxError import os
file_path = r'C:xxxxxx.pdf' # PDF 文件路径 dir_path = r'C:xxx'
# 存放图片的文件夹 def pdf2image2(file_path, dir_path):
images = convert_from_path(file_path, dpi=200)
for image in images:
if not os.path.exists(dir_path):
os.makedirs(dir_path)
image.save(file_path + f'img_{images.index(image)}.png', 'PNG')
pdf2image2(file_path, dir_path)
可以成功提取图片。再试试第二种方法:
from pdf2image import convert_from_path,convert_from_bytes import tempfile from
pdf2image.exceptions import
PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError import os
file_path = r'C:xxxxxx.pdf' # PDF 文件路径 dir_path = r'C:xxx' # 存放图片的文件夹 def pdf2image3(file_path,
dir_path): images = convert_from_bytes(open(file_path, 'rb').read())
for image in images:
if not os.path.exists(dir_path):
os.makedirs(dir_path)
image.save(file_path + f'img_{images.index(image)}.png', 'PNG')
pdf2image3(file_path, dir_path)
可以看到结果和之前一致,PDF中全部图片都被提取出来!
再补充一下。核心方法covert_from_bytes包含大量参数,可以自行修改。几个常用参数总结如下:
值得一提的是thread_count 参数,可以启动多线程会大大加快转换速度,尤其是 PDF 页面较多时。有兴趣的读者可以做尝试。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据驱动决策的浪潮中,数据挖掘与数据分析是两个高频出现且极易被混淆的概念。有人将二者等同看待,认为“做数据分析就是做数 ...
2026-04-01在数据驱动决策的时代,企业与从业者每天都会面对海量数据——电商平台的用户行为数据、金融机构的信贷风险数据、快消品牌的营销 ...
2026-04-01在数字化转型的浪潮中,企业数据已从“辅助运营的附属资源”升级为“驱动增长的核心资产”,而一套科学、可落地的企业数据管理方 ...
2026-04-01在数字化时代,每一位用户与产品的交互都会留下可追溯的行为轨迹——电商用户的浏览、加购、下单,APP用户的注册、登录、功能使 ...
2026-03-31在日常数据统计、市场调研、学术分析等场景中,我们常常需要判断两个分类变量之间是否存在关联(如性别与消费偏好、产品类型与满 ...
2026-03-31在CDA(Certified Data Analyst)数据分析师的职场实战与认证考核中,“可解释性建模”是核心需求之一——企业决策中,不仅需要 ...
2026-03-31多层感知机(MLP,Multilayer Perceptron)作为深度学习中最基础、最经典的神经网络模型,其结构设计直接决定了模型的拟合能力、 ...
2026-03-30在TensorFlow深度学习实战中,数据集的加载与预处理是基础且关键的第一步。手动下载、解压、解析数据集不仅耗时费力,还容易出现 ...
2026-03-30在CDA(Certified Data Analyst)数据分析师的日常工作中,“无监督分组、挖掘数据内在聚类规律”是高频核心需求——电商场景中 ...
2026-03-30机器学习的本质,是让模型通过对数据的学习,自主挖掘规律、实现预测与决策,而这一过程的核心驱动力,并非单一参数的独立作用, ...
2026-03-27在SQL Server数据库操作中,日期时间处理是高频核心需求——无论是报表统计中的日期格式化、数据筛选时的日期类型匹配,还是业务 ...
2026-03-27在CDA(Certified Data Analyst)数据分析师的能力体系与职场实操中,高维数据处理是高频且核心的痛点——随着业务场景的复杂化 ...
2026-03-27在机器学习建模与数据分析实战中,特征维度爆炸、冗余信息干扰、模型泛化能力差是高频痛点。面对用户画像、企业经营、医疗检测、 ...
2026-03-26在这个数据无处不在的时代,数据分析能力已不再是数据从业者的专属技能,而是成为了职场人、管理者、创业者乃至个人发展的核心竞 ...
2026-03-26在CDA(Certified Data Analyst)数据分析师的能力体系中,线性回归是连接描述性统计与预测性分析的关键桥梁,也是CDA二级认证的 ...
2026-03-26在数据分析、市场研究、用户画像构建、学术研究等场景中,我们常常会遇到多维度、多指标的数据难题:比如调研用户消费行为时,收 ...
2026-03-25在流量红利见顶、获客成本持续攀升的当下,营销正从“广撒网”的经验主义,转向“精耕细作”的数据驱动主义。数据不再是营销的辅 ...
2026-03-25在CDA(Certified Data Analyst)数据分析师的全流程工作中,无论是前期的数据探索、影响因素排查,还是中期的特征筛选、模型搭 ...
2026-03-25在当下数据驱动决策的职场环境中,A/B测试早已成为互联网产品、运营、营销乃至产品迭代优化的核心手段,小到一个按钮的颜色、文 ...
2026-03-24在统计学数据分析中,尤其是分类数据的分析场景里,卡方检验和显著性检验是两个高频出现的概念,很多初学者甚至有一定统计基础的 ...
2026-03-24