2018-10-19
阅读量:
1367
python写的脚本语言可以直接在hadoop上运行吗
python写的脚本语言可以直接在hadoop上运行吗?我的意思是Python 写的脚本语言不经任何处理是否可以在Hadoop 上运行,还是说,需要将脚本进行mapreduce转化后才能运行,如果是转化,怎么转化,很难吗?
首先 由于python是应用于单机环境的,因此python脚本如果没有按照Hadoop的模式来编写、部署是不能直接在hadoop上运行的。
MapReduce是hadoop处理数据的引擎(框架),在hadoop上运行的程序都是基于这种框架来编写的。因此Python脚本必须做这样的转换才可以。可以参考一下 pydoop、mrjob 、hadoop streaming、这些框架来对自己代码做转换然后才可以在Hadoop集群上运行。因为是集群模式运行,因此集群中的每个节点都要安装相同的python环境(python解释器+相关的包)。其实可以选择用spark的pyspark ,它提供了更全面的更高级的python接口,开发起来效率更高一些。
17.3650
2
4
关注作者
收藏
评论(0)
发表评论
暂无数据
推荐帖子
1条评论
0条评论
0条评论