热线电话:13121318867

登录
2020-07-04 阅读量: 762
如何解决HDFS的大量小文件问题(续)

(2)采用CombineTextInputFormat

(3)有小文件场景开启JVM重用;如果没有小文件,不要开启JVM重用,因为会一直占用使用到的task卡槽,直到任务完成才释放。

JVM重用可以使得JVM实例在同一个job中重新使用N次,N的值可以在Hadoop的mapred-site.xml文件中进行配置。通常在10-20之间:

<property>

<name>mapreduce.job.jvm.numtasks</name>

<value>10</value>

<description>How many tasks to run per jvm,if set to -1 ,there is

no limit</description>

</property>


34.3921
1
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子