用Python多线程实现生产者消费者模式-CDA数据分析师官网

用Python多线程实现生产者消费者模式

2017-05-17

用Python多线程实现生产者消费者模式

什么是生产者消费者模式

在软件开发的过程中，经常碰到这样的场景：
    某些模块负责生产数据，这些数据由其他模块来负责处理（此处的模块可能是：函数、线程、进程等）。产生数据的模块称为生产者，而处理数据的模块称为消费者。在生产者与消费者之间的缓冲区称之为仓库。生产者负责往仓库运输商品，而消费者负责从仓库里取出商品，这就构成了生产者消费者模式。
结构图如下：

为了大家容易理解，我们举一个寄信的例子。假设你要寄一封信，大致过程如下：
    你把信写好——相当于生产者生产数据
    你把信放入邮箱——相当于生产者把数据放入缓冲区
    邮递员把信从邮箱取出，做相应处理——相当于消费者把数据取出缓冲区，处理数据
生产者消费者模式的优点

    解耦

假设生产者和消费者分别是两个线程。如果让生产者直接调用消费者的某个方法，那么生产者对于消费者就会产生依赖（也就是耦合）。如果未来消费者的代码发生变化，可能会影响到生产者的代码。而如果两者都依赖于某个缓冲区，两者之间不直接依赖，耦合也就相应降低了。

    举个例子，我们去邮局投递信件，如果不使用邮箱（也就是缓冲区），你必须得把信直接交给邮递员。有同学会说，直接给邮递员不是挺简单的嘛？其实不简单，你必须得认识谁是邮递员，才能把信给他。这就产生了你和邮递员之间的依赖（相当于生产者和消费者的强耦合）。万一哪天邮递员换人了，你还要重新认识一下（相当于消费者变化导致修改生产者代码）。而邮箱相对来说比较固定，你依赖它的成本就比较低（相当于和缓冲区之间的弱耦合）。

    并发

由于生产者与消费者是两个独立的并发体，他们之间是用缓冲区通信的，生产者只需要往缓冲区里丢数据，就可以继续生产下一个数据，而消费者只需要从缓冲区拿数据即可，这样就不会因为彼此的处理速度而发生阻塞。

    继续上面的例子，如果我们不使用邮箱，就得在邮局等邮递员，直到他回来，把信件交给他，这期间我们啥事儿都不能干（也就是生产者阻塞）。或者邮递员得挨家挨户问，谁要寄信（相当于消费者轮询）。

    支持忙闲不均

当生产者制造数据快的时候，消费者来不及处理，未处理的数据可以暂时存在缓冲区中，慢慢处理掉。而不至于因为消费者的性能造成数据丢失或影响生产者生产。

    我们再拿寄信的例子，假设邮递员一次只能带走1000封信，万一碰上情人节（或是圣诞节）送贺卡，需要寄出去的信超过了1000封，这时候邮箱这个缓冲区就派上用场了。邮递员把来不及带走的信暂存在邮箱中，等下次过来时再拿走。

通过上面的介绍大家应该已经明白了生产者消费者模式。

Python中的多线程编程

在实现生产者消费者模式之前，我们先学习下Python中的多线程编程。

线程是操作系统直接支持的执行单元，高级语言通常都内置多线程的支持，Python也不例外，并且Python的线程是真正的Posix Thread，而不是模拟出来的线程。

Python的标准库提供了两个模块：_thread和threading，_thread是低级模块，threading是高级模块，对_thread进行了封装。绝大多数情况下，我们只需要使用threading这个高级模块。

下面我们先看一段在Python中实现多线程的代码。

    import time,threading

    #线程代码

    class TaskThread(threading.Thread):

        def __init__(self,name):

            threading.Thread.__init__(self,name=name)

        def run(self):

            print('thread %s is running...' % self.getName())

            for i in range(6):

                print('thread %s >>> %s' % (self.getName(), i))

                time.sleep(1)

            print('thread %s finished.' % self.getName())

    taskthread = TaskThread('TaskThread')

    taskthread.start()

    taskthread.join()

下面是程序的执行结果：

    thread TaskThread is running...

    thread TaskThread >>> 0

    thread TaskThread >>> 1

    thread TaskThread >>> 2

    thread TaskThread >>> 3

    thread TaskThread >>> 4

    thread TaskThread >>> 5

    thread TaskThread finished.

    TaskThread类继承自threading模块中的Thread线程类。构造函数的name参数指定线程的名字，通过重载基类run函数实现具体任务。

在简单熟悉了Python的线程后，下面我们实现一个生产者消费者模式。

    from Queue import Queue

    import random,threading,time

    #生产者类

    class Producer(threading.Thread):

        def __init__(self, name,queue):

            threading.Thread.__init__(self, name=name)

            self.data=queue

        def run(self):

            for i in range(5):

                print("%s is producing %d to the queue!" % (self.getName(), i))

                self.data.put(i)

                time.sleep(random.randrange(10)/5)

            print("%s finished!" % self.getName())

    #消费者类

    class Consumer(threading.Thread):

        def __init__(self,name,queue):

            threading.Thread.__init__(self,name=name)

            self.data=queue

        def run(self):

            for i in range(5):

                val = self.data.get()

                print("%s is consuming. %d in the queue is consumed!" % (self.getName(),val))

                time.sleep(random.randrange(10))

            print("%s finished!" % self.getName())

    def main():

        queue = Queue()

        producer = Producer('Producer',queue)

        consumer = Consumer('Consumer',queue)

        producer.start()

        consumer.start()

        producer.join()

        consumer.join()

        print 'All threads finished!'

    if __name__ == '__main__':

        main()

执行结果可能如下：

    Producer is producing 0 to the queue!

    Consumer is consuming. 0 in the queue is consumed!

    Producer is producing 1 to the queue!

    Producer is producing 2 to the queue!

    Consumer is consuming. 1 in the queue is consumed!

    Consumer is consuming. 2 in the queue is consumed!

    Producer is producing 3 to the queue!

    Producer is producing 4 to the queue!

    Producer finished!

    Consumer is consuming. 3 in the queue is consumed!

    Consumer is consuming. 4 in the queue is consumed!

    Consumer finished!

    All threads finished!

    因为多线程是抢占式执行的，所以打印出的运行结果不一定和上面的完全一致。

小结

本例通过Python实现了一个简单的生产者消费者模型。Python中的Queue模块已经提供了对线程同步的支持，所以本文并没有涉及锁、同步、死锁等多线程问题。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想查询CDA考试成绩，点击>>> “CDA成绩” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想获取CDA考试时间/费用/条件/大纲/通过率，点击 >>>“CDA考试官网” 了解CDA考试详情；

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

用Python多线程实现生产者消费者模式

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】你在纳闷用户为啥流失?华为已经用关系分析 ...

【干货】2小时用AI完成的SQL教程也太赞了吧，不推荐 ...

【干货】指标波动归因分析：数据背后的故事 ...

数据分析学习指南：从踩坑到精通的成长之路 ...

数据分析学习指南

Deepseek如何帮助公司深入挖掘用户价值？ ...

【干货】Deepseek教我数据可视化看板实时更新 ...

一秒精通 Deepseek

Deepseek教我自学Python，貌似30天就够了 ...

【干货】2步学会构成分析，找到业务增长关键 ...

【2月】CDA网校2025 数据分析组队打卡学习活动第4期 ...

【干货】画用户画像与找相亲对象一样简单 ...

统计分析与数据挖掘的联系与区别

【干货】5分钟学会数据分析方法之【对比分析法】 ...

【干货】半监督学习（下）Label Spreading ...

【干货】用半监督学习方法处理标签（上）Label Prop ...

【干货】掌握这50个常用Excel函数，你的Excel就无敌 ...

【干货】7类常见的统计分析错误

【干货】“数据敏感”不是天赋！如何培养数据敏感度 ...

【干货】2025年必学技能：想转行数据分析看过来！ ...