python列表生成式与列表生成器的使用-CDA数据分析师官网

python列表生成式与列表生成器的使用

2018-07-31

python列表生成式与列表生成器的使用

列表生成式：会将所有的结果全部计算出来，把结果存放到内存中，如果列表中数据比较多，就会占用过多的内存空间，可能会导致MemoryError内存错误或者导致程序在运行时出现卡顿的情况
列表生成器：会创建一个列表生成器对象，不会一次性的把所有结果都计算出来，如果需要获取数据，可以使用next()函数来获取，但是需要注意，一旦next()函数获取不到数据，会导致出现StopIteration异常错误，可以使用for循环遍历列表生成器，获取所有数据

需要视情况而定，如果数据量比较大，推荐使用生成器

python2.7中就是range(生成式) 和 xrange(生成器)的区别

列表生成式是快速生成一个列表的一些公式

在列表中存放0~100的数：

普通的列表生成：
numbers=[]
for x in range(0,101):
numbers.append(x)
print(numbers)

用列表生成式生成列表：[要放入列表的数据    简单的表达式1   表达式2]
#x for x in range(0,101) for循环遍历出来的值，放入列表中
numbers=[x for x in range(0,101)]
print(numbers)

列表中存放0~100的偶数：

普通方法生成列表：

for x in range(0,101):
if x%2==0:
    numbers.append(x)
print(numbers)

用列表生成式生成列表：

#for循环遍历0~101的数字，如果数字对2取余==0，表示是偶数，x放在列表中
numbers=[x for x in range(0,101)if x%2==0]
print(numbers)

找出列表list1=['asd','adf','dafg','acbo']带有a的字符

普通写法：
rs_list=[]
for s in list1:
if 'a' in s:
    rs_list.append(s)
print(rs_list)

列表生成式：
list2=[x for x in list1 if 'a' in x]

列表生成式支持双层for循环
list3=[x*y for x in range(0,10) for y in range(20)]
print(list3)

生成器构造实例

# 使用类似列表生成式的方式构造生成器
g1 = (2*n + 1 for n in range(3, 6))

# 使用包含yield的函数构造生成器
def my_range(start, end):
for n in range(start, end):
    yield 2*n + 1

g2 = my_range(3, 6)
print(type(g1))
print(type(g2))

输出结果：

    <class 'generator'>
    <class 'generator'>

生成器的调用方式

    要调用生成器产生新的元素，有两种方式：
    调用内置的next()方法
    使用循环对生成器对象进行遍历（推荐）
    调用生成器对象的send()方法

实例1：使用next()方法遍历生成器
print(next(g1))
print(next(g1))
print(next(g1))
print(next(g1))

输出结果：

    7
    9
    11
    Traceback (most recent call last):
      File "***/generator.py", line 26, in <module>
        print(next(g1))
    StopIteration
print(next(g2))
print(next(g2))
print(next(g2))
print(next(g2))

输出结果：

    7
    9
    11
    Traceback (most recent call last):
      File "***/generator.py", line 31, in <module>
        print(next(g2))
    StopIteration

可见，使用next()方法遍历生成器时，最后是以抛出一个StopIeration异常终止。

实例2：使用循环遍历生成器

for x in g1:
print(x)

for x in g2:
print(x)

两个循环的输出结果是一样的：

    7
    9
    11

可见，使用循环遍历生成器时比较简洁，且最后不会抛出一个StopIeration异常。因此使用循环的方式遍历生成器的方式才是被推荐的。

需要说明的是：如果生成器函数有返回值，要获取该返回值的话，只能通过在一个while循环中不断的next()，最后通过捕获StopIteration异常

实例3：调用生成器对象的send()方法
def my_range(start, end):
for n in range(start, end):
    ret = yield 2*n + 1
    print(ret)

g3 = my_range(3, 6)
print(g3.send(None))
print(g3.send('hello01'))
print(g3.send('hello02'))

输出结果：

    7
    hello01
    9
    hello02
    11
print(next(g3))
print(next(g3))
print(next(g3))

输出结果：

    7
    None
    9
    None
    11

结论：

    next()会调用yield，但不给它传值
    send()会调用yield，也会给它传值（该值将成为当前yield表达式的结果值）

需要注意的是：第一次调用生成器的send()方法时，参数只能为None，否则会抛出异常。当然也可以在调用send()方法之前先调用一次next()方法，目的是让生成器先进入yield表达式。

生成器与列表生成式对比

既然通过列表生成式就可以直接创建一个新的list，那么为什么还要有生成器存在呢？

因为列表生成式是直接创建一个新的list，它会一次性地把所有数据都存放到内存中，这会存在以下几个问题：

    内存容量有限，因此列表容量是有限的；
    当列表中的数据量很大时，会占用大量的内存空间，如果我们仅仅需要访问前面有限个元素时，就会造成内存资源的极大浪费；
    当数据量很大时，列表生成式的返回时间会很慢；

而生成器中的元素是按照指定的算法推算出来的，只有调用时才生成相应的数据。这样就不必一次性地把所有数据都生成，从而节省了大量的内存空间，这使得其生成的元素个数几乎是没有限制的，并且操作的返回时间也是非常快速的（仅仅是创建一个变量而已）。

我们可以做个试验：对比一下生成一个1000万个数字的列表，分别看下用列表生成式和生成器时返回结果的时间和所占内存空间的大小：
import time
import sys

time_start = time.time()
g1 = [x for x in range(10000000)]
time_end = time.time()
print('列表生成式返回结果花费的时间： %s' % (time_end - time_start))
print('列表生成式返回结果占用内存大小：%s' % sys.getsizeof(g1))

def my_range(start, end):
for x in range(start, end):
    yield x

time_start = time.time()
g2 = my_range(0, 10000000)
time_end = time.time()
print('生成器返回结果花费的时间： %s' % (time_end - time_start))
print('生成器返回结果占用内存大小：%s' % sys.getsizeof(g2))
输出结果：
    列表生成式返回结果花费的时间： 0.8215489387512207
    列表生成式返回结果占用内存大小：81528056
    生成器返回结果花费的时间： 0.0
    生成器返回结果占用内存大小：88
可见，生成器返回结果的时间几乎为0，结果所占内存空间的大小相对于列表生成器来说也要小的多。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

python

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

python列表生成式与列表生成器的使用

CDA考试动态

CDA报考指南

热门栏目

最新资讯

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...