从HadoopURL中读取数据-CDA数据分析师官网

从HadoopURL中读取数据

2017-06-06

从HadoopURL中读取数据

要从 Hadoop文件系统中读取文件，最简单的方法是使用java.net.URL对象打开数据流，进而从中读取数据。具体格式如下。

InputStreamin=null;
try{
    in=new URL(“hdfs://host/path”).openStream();
    //process in
} finally{
    IOUtils.closeStream(in);
}

让Java程序能够识别Hadoop的hdfs URL方案还需要一些额外的工作。这里采用的方法是通过FsUrlStreamHandlerFactory实例调用URL中的setURLStreamHandlerFactory方法。由于Java虚拟机只能调用一次上述方法，因此通常在静态方法中调用上述方法。这个限制意味着如果程序的其他组件（如不受你控制的第三方组件）已经声明了一个URLStreamHandlerFactory实例，将无法再使用上述方法从Hadoop中读取数据。例5-1展示的程序以标准输出方式显示Hadoop文件系统中的文件，类似于Unix中的cat命令。

例5-1 以标准输出方式显示Hadoop文件系统中的文件。

public classURLCat{
static{
    URL.setURLStreamHandlerFactory(newFsUrlStreamHandlerFactory());
}
public static void main(String[] args) throws Exception{
    InputStream in=null;
    try{
       in=new URL(args [0] ).openStream();
       IOUtils.copyBytes(in, System.out.4096, false);
    } finally{
        IOUtils. closeStream(in);
    }

}

可以调用Hadoop中简洁的IOUtils类，并在finally子句中关闭数据流，同时也可以在输入流和输出流之间复制数据（本例中为System. out）。copyBytes方法的最后两个参数，第一个用于设置复制的缓冲区大小，第二个用于设置复制结束后是否关闭数据流。这里选择自行关闭输入流，因而System.out不关闭输入流。

运行结果如下：

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

Hadoop 虚拟机

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

从HadoopURL中读取数据

CDA考试动态

CDA报考指南

热门栏目

最新资讯

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...

【干货】5步搞定数据异常分析

CDA数据人才能力模型与认证体系简介