热线电话:13121318867

登录
2018-11-02 阅读量: 998
pandas 的数据框与spark数据框区别

最近学习spark,pandas 的数据框与spark数据框区别?

首先两者使用平台不一样:pandas的Dataframe应用场景是单机,就是在python环境中使用。而spark中的dataframe是基于RDD的,因此他是分布式的。

平台底层不一样导致他们的方法也是不一样的.

首先pandas的Dataframe 不支持并行计算,也不支持Hadoop,因此大数据处理不了。因为是单机所以编程简单。在编程过程中pyspark可以实现pandas 的numpy、dataframe与spark dataframe的互换,但是注意单机内存的限制(数据量不要太大)。

0.0000
4
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子