2018-11-02
阅读量:
998
pandas 的数据框与spark数据框区别
最近学习spark,pandas 的数据框与spark数据框区别?
首先两者使用平台不一样:pandas的Dataframe应用场景是单机,就是在python环境中使用。而spark中的dataframe是基于RDD的,因此他是分布式的。
平台底层不一样导致他们的方法也是不一样的.
首先pandas的Dataframe 不支持并行计算,也不支持Hadoop,因此大数据处理不了。因为是单机所以编程简单。在编程过程中pyspark可以实现pandas 的numpy、dataframe与spark dataframe的互换,但是注意单机内存的限制(数据量不要太大)。
0.0000
0
4
关注作者
收藏
评论(0)
发表评论
暂无数据
推荐帖子
0条评论
0条评论
1条评论