python写的脚本语言可以直接在hadoop上运行吗

PGC123

2018-10-19 阅读量: 1763

python写的脚本语言可以直接在hadoop上运行吗？我的意思是Python 写的脚本语言不经任何处理是否可以在Hadoop 上运行，还是说，需要将脚本进行mapreduce转化后才能运行，如果是转化，怎么转化，很难吗？

首先由于python是应用于单机环境的，因此python脚本如果没有按照Hadoop的模式来编写、部署是不能直接在hadoop上运行的。
MapReduce是hadoop处理数据的引擎（框架），在hadoop上运行的程序都是基于这种框架来编写的。因此Python脚本必须做这样的转换才可以。可以参考一下 pydoop、mrjob 、hadoop streaming、这些框架来对自己代码做转换然后才可以在Hadoop集群上运行。因为是集群模式运行，因此集群中的每个节点都要安装相同的python环境（python解释器+相关的包）。其实可以选择用spark的pyspark ，它提供了更全面的更高级的python接口，开发起来效率更高一些。

17.3650

关注作者

发表评论

暂无数据

CDA考试动态

CDA报考指南

推荐帖子