热线电话:13121318867

登录
2018-10-19 阅读量: 1367
python写的脚本语言可以直接在hadoop上运行吗

python写的脚本语言可以直接在hadoop上运行吗?我的意思是Python 写的脚本语言不经任何处理是否可以在Hadoop 上运行,还是说,需要将脚本进行mapreduce转化后才能运行,如果是转化,怎么转化,很难吗?

首先 由于python是应用于单机环境的,因此python脚本如果没有按照Hadoop的模式来编写、部署是不能直接在hadoop上运行的。
MapReduce是hadoop处理数据的引擎(框架),在hadoop上运行的程序都是基于这种框架来编写的。因此Python脚本必须做这样的转换才可以。可以参考一下 pydoop、mrjob 、hadoop streaming、这些框架来对自己代码做转换然后才可以在Hadoop集群上运行。因为是集群模式运行,因此集群中的每个节点都要安装相同的python环境(python解释器+相关的包)。其实可以选择用spark的pyspark ,它提供了更全面的更高级的python接口,开发起来效率更高一些。

17.3650
4
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子