热线电话:13121318867

登录
2018-11-17 阅读量: 920
pyspark如何创建RDD

PySpark 如何创建RDD呢?

PySpark中有两种方法可以创建RDD:

1、使用parallelize(...) 通过传入python集合创建,如:list或array。第二个参数可以是分区数。

2、也可以引用文件(本地或者外部文件如HDFS等)

data_from_file = sc.textFile(path,p_num) ,其中path是文件路径,p_num是分区数。

0.0000
5
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子