2018-11-17
阅读量:
920
pyspark如何创建RDD
PySpark 如何创建RDD呢?
PySpark中有两种方法可以创建RDD:
1、使用parallelize(...) 通过传入python集合创建,如:list或array。第二个参数可以是分区数。
2、也可以引用文件(本地或者外部文件如HDFS等)
data_from_file = sc.textFile(path,p_num) ,其中path是文件路径,p_num是分区数。
0.0000
0
5
关注作者
收藏
评论(0)
发表评论
暂无数据
推荐帖子
1条评论
0条评论
0条评论