作者：俊欣

来源：关于数据分析与可视化

大家好，又是新的一周。大家一般会用Pandas模块来对数据集进行进一步的分析与挖掘关键信息，但是当我们遇到数据集特别特别大的时候，内存就会爆掉，今天小编就来分享几个技巧，来帮助你避免遇到上述提到的这个情况。

read_csv()方法当中的chunksize参数

read_csv()方法当中的chunksize参数顾名思义就是对于超大csv文件，我们可以分块来进行读取，例如文件当中有7000万行的数据，我们将chunksize参数设置为100万，每次分100万来分批读取，代码如下

# read the large csv file with specified chunksize  df_chunk = pd.read_csv(r'data.csv', chunksize=1000000)

这时我们得到的df_chunk并非是一个DataFrame对象，而是一个可迭代的对象。接下来我们使用for循环并且将自己创立数据预处理的函数方法作用于每块的DataFrame数据集上面，代码如下

chunk_list = []  # 创建一个列表chunk_list   # for循环遍历df_chunk当中的每一个DataFrame对象 for chunk in df_chunk:   # 将自己创建的数据预处理的方法作用于每个DataFrame对象上 chunk_filter = chunk_preprocessing(chunk)  # 将处理过后的结果append到上面建立的空列表当中 chunk_list.append(chunk_filter)  # 然后将列表concat到一块儿 df_concat = pd.concat(chunk_list)

将不重要的列都去除掉

当然我们还可以进一步将不重要的列都给去除掉，例如某一列当中存在较大比例的空值，那么我们就可以将该列去除掉，代码如下

# Filter out unimportant columns df = df[['col_1','col_2', 'col_3', 'col_4', 'col_5', 'col_6','col_7', 'col_8', 'col_9', 'col_10']]

当然我们要去除掉空值可以调用df.dropna()方法，一般也可以提高数据的准确性以及减少内存的消耗

转变数据格式

最后我们可以通过改变数据类型来压缩内存空间，一般情况下，Pandas模块会给数据列自动设置默认的数据类型，很多数据类型里面还有子类型，而这些子类型可以用更加少的字节数来表示，下表给出了各子类型所占的字节数

对于内存当中的数据，我们可以这么来理解，内存相当于是仓库，而数据则相当于是货物，货物在入仓库之前呢需要将其装入箱子当中，现在有着大、中、小三种箱子，

现在Pandas在读取数据的时候是将这些数据无论其类型，都是装到大箱子当中去，因此会在很快的时间里仓库也就是内存就满了。

因此我们优化的思路就在于是遍历每一列，然后找出该列的最大值与最小值，我们将这些最大最小值与子类型当中的最大最小值去做比较，挑选字节数最小的子类型。

我们举个例子，Pandas默认是int64类型的某一列最大值与最小值分别是0和100，而int8类型是可以存储数值在-128~127之间的，因此我们可以将该列从int64类型转换成int8类型，也就同时节省了不少内存的空间。

我们将上面的思路整理成代码，就是如下所示

def reduce_mem_usage(df): """ 遍历DataFrame数据集中的每列数据集
    并且更改它们的数据类型        
    """ start_memory = df.memory_usage().sum() / 1024**2 print('DataFrame所占用的数据集有: {:.2f} MB'.format(start_memory)) for col in df.columns:
        col_type = df[col].dtype if col_type != object:
            col_min = df[col].min()
            col_max = df[col].max() if str(col_type)[:3] == 'int': if col_min > np.iinfo(np.int8).min and col_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8) elif col_min > np.iinfo(np.int16).min and col_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16) elif col_min > np.iinfo(np.int32).min and col_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32) elif col_min > np.iinfo(np.int64).min and col_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64) else: if col_min > np.finfo(np.float16).min and col_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16) elif col_min > np.finfo(np.float32).min and col_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32) else:
                    df[col] = df[col].astype(np.float64)

    end_memory = df.memory_usage().sum() / 1024**2 print('优化过之后数据集的内存占有: {:.2f} MB'.format(end_memory))
    print('减少了大约有: {:.1f}%'.format(100 * (start_memory - end_memory) / start_memory)) return df

大家可以将小编写的这个函数方法拿去尝试一番，看一下效果如何？

2000字详解，当Pandas遇上超大规模的数据集该如何处理呢？（CDA内容分享）

read_csv()方法当中的chunksize参数

将不重要的列都去除掉

转变数据格式

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】实操指南：加快Python算法运行速度的四 ...

【CDA干货】解析神经网络中卷积的核心作用：提取数 ...

数字化转型攻坚：CDA数据分析师成为企业破局的核心 ...

【CDA干货】实操指南：数据透视表中两个计数项的公 ...

【CDA干货】实时赋能，精准预判：用户实时行为序列 ...

CDA数据分析师：企业数据安全管理方法论的落地者与 ...

【CDA干货】数据挖掘与数据分析：厘清边界，协同赋 ...

【CDA干货】特征重要性分析：从数据特征到业务价值 ...

CDA数据分析师：企业数据管理方法论的落地者与价值 ...

【CDA干货】序列模式挖掘在用户行为分析中的应用： ...

【CDA干货】Excel卡方检验完整教程：从零上手，轻松 ...

CDA数据分析师：决策树分析实战，可解释性建模的核 ...

【CDA干货】MLP模型隐藏层层数与单元个数确定指南： ...

【CDA干货】详解tensorflow_datasets.load函数：快 ...

CDA数据分析师：聚类分析实战，无监督学习下的精准 ...

【CDA干货】多参数综合作用：解锁机器学习精准性与 ...

【CDA干货】SQL Server CONVERT日期转换：从基础到 ...

CDA数据分析师：主成分分析（PCA）实战，破解高维数 ...

【CDA干货】随机森林算法中的特征重要性分析：原理 ...

【CDA干货】如何提升数据分析能力：从入门到精通的 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载