Hadoop API实现本地文件上传至HDFS的示例

ZIP文件

docke

hadoop

hdfs

下载需积分: 48 | 32.31MB | 更新于2025-03-22 | 146 浏览量 | 举报收藏

立即下载

在当今的大数据时代，Hadoop作为一个开源框架，使得大数据的存储和处理变得可能。Hadoop分布式文件系统（HDFS）是Hadoop项目的核心组件，它是一个高度容错的系统，适合在廉价硬件上运行。通过将数据保存在多台机器上，HDFS可以提供极高的数据吞吐量。本文将详细介绍如何使用Java编写代码，将本地文件上传到HDFS上。首先，要实现从本地上传文件到HDFS的功能，我们需要了解一些基础知识点： 1. Hadoop生态系统：Hadoop生态系统包括多个组件，HDFS是核心组件之一，除此之外还有HBase、Zookeeper、Hive、Pig等。其中，Hadoop的MapReduce编程模型用于处理数据，而HDFS负责存储数据。 2. Hadoop API：Hadoop为开发者提供了丰富的API，用于操作和管理Hadoop集群。为了在Java程序中使用Hadoop的功能，我们需要引入Hadoop的依赖库。 3. HDFS的文件操作：HDFS提供了文件系统接口，允许用户像操作本地文件系统一样操作HDFS。它支持常见的文件操作，包括创建、删除、读取和写入文件。 4. Hadoop配置：在编写Hadoop相关的程序时，通常需要配置hadoop-site.xml和core-site.xml等配置文件，以指定文件系统实现类，配置名称节点地址等信息。现在，让我们步入正题，了解如何使用Java代码将本地文件上传到HDFS上。 ### 环境准备在开始编写代码之前，需要确保你的开发环境中已经安装并配置好了Hadoop。同时，你需要在你的Java项目中引入Hadoop的依赖。 ### 编写Java代码上传文件到HDFS ```java import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.InputStream; import java.net.URI; import org.slf4j.Logger; import org.slf4j.LoggerFactory; public class HdfsUploadDemo { private static final Logger LOG = LoggerFactory.getLogger(HdfsUploadDemo.class); public static void main(String[] args) { // HDFS目标路径 final String dst = "/user/hadoop/uploaded-file.txt"; // 指定本地文件路径 final String src = "/path/to/local/file.txt"; Configuration conf = new Configuration(); // 配置Hadoop集群的名称节点 conf.set("fs.defaultFS", "hdfs://namenode:8020"); // 如果Hadoop集群启用了安全模式，还需要配置Hadoop的安全认证信息 FileSystem fs = null; InputStream is = null; try { // 获取HDFS文件系统的实例 fs = FileSystem.get(new URI(dst), conf); // 打开本地文件输入流 is = new BufferedInputStream(new FileInputStream(src)); // 创建HDFS文件的输出路径 Path dstPath = new Path(dst); // 上传文件到HDFS fs.copyFromLocalFile(is, dstPath); LOG.info("文件已成功上传到HDFS路径：" + dstPath); } catch (Exception e) { LOG.error("上传文件到HDFS时发生异常：" + e.getMessage()); e.printStackTrace(); } finally { // 关闭输入流 if (is != null) { try { is.close(); } catch (Exception e) { LOG.error("关闭输入流时发生异常：" + e.getMessage()); } } // 关闭HDFS文件系统连接 if (fs != null) { try { fs.close(); } catch (Exception e) { LOG.error("关闭HDFS文件系统时发生异常：" + e.getMessage()); } } } } } ``` 在上面的Java代码中，我们首先引入了Hadoop的配置类`Configuration`和文件系统类`FileSystem`。然后，我们设置了HDFS的名称节点地址，并初始化了`FileSystem`对象。之后，我们使用`FileInputStream`打开本地文件的输入流，并调用`copyFromLocalFile`方法将文件上传到HDFS。 ### 注意事项 - 确保你的Hadoop集群名称节点的地址和端口是正确的。 - 如果Hadoop集群启用了安全模式，还需要在`Configuration`对象中添加相应的安全认证信息。 - 在上传文件之前，确认HDFS上指定的路径不存在同名文件，否则可能会抛出异常。 - 在上传大文件时，应考虑内存和网络带宽的影响，必要时分块上传。 - 处理好异常和资源的关闭，确保程序的健壮性。 ### 代码演示在该代码示例中，我们演示了一个名为`HdfsUploadDemo`的Java类，该类包含了主方法`main`，用于实现将本地文件上传到HDFS的功能。代码中使用了`org.slf4j.Logger`和`org.slf4j.LoggerFactory`进行日志记录，帮助开发者跟踪程序运行的状态。 ### 总结通过以上步骤，我们可以轻松地使用Java代码将本地文件上传到HDFS中。这只是一个基础的示例，实际应用中可能需要更复杂的操作，例如文件检查、错误处理、上传进度显示等。此外，Hadoop生态系统提供的其他工具和组件，如Hive、Pig等，可以与HDFS结合使用，对存储在HDFS中的数据进行查询和分析，进一步发挥大数据的价值。

资源目录

收起资源包目录

Hadoop API实现本地文件上传至HDFS的示例（83个子文件）

org.eclipse.jdt.core.prefs 598B

commons-beanutils-core-1.8.0.jar 201KB

protobuf-java-2.5.0.jar 521KB

snappy-java-1.0.4.1.jar 973KB

httpcore-4.2.5.jar 222KB

hadoop-annotations-2.7.2.jar 17KB

htrace-core-3.1.0-incubating.jar 1.41MB

jackson-core-asl-1.9.13.jar 227KB

jackson-jaxrs-1.9.13.jar 18KB

asm-3.2.jar 42KB

jets3t-0.9.0.jar 527KB

guava-11.0.2.jar 1.57MB

apacheds-i18n-2.0.0-M15.jar 44KB

curator-recipes-2.7.1.jar 264KB

commons-daemon-1.0.13.jar 24KB

stax-api-1.0-2.jar 23KB

hadoop-hdfs-2.7.2.jar 7.87MB

commons-collections-3.2.2.jar 575KB

jsch-0.1.42.jar 181KB

netty-all-4.0.23.Final.jar 1.7MB

jsp-api-2.1.jar 98KB

hadoop-common-2.7.2.jar 3.28MB

api-asn1-api-1.0.0-M20.jar 16KB

file.properties 95B

xercesImpl-2.9.1.jar 1.17MB

CopyingLocalFileToHDFS.class 2KB

log4j.properties 777B

curator-client-2.7.1.jar 68KB

jettison-1.1.jar 66KB

junit-4.11.jar 239KB

activation-1.1.jar 62KB

.project 385B

commons-configuration-1.6.jar 292KB

paranamer-2.3.jar 29KB

CopyingLocalFileToHDFS$1.class 726B

jetty-util-6.1.26.jar 173KB

avro-1.7.4.jar 296KB

hamcrest-core-1.3.jar 44KB

xml-apis-1.3.04.jar 190KB

java-xmlbuilder-0.4.jar 18KB

log4j.properties 777B

jaxb-impl-2.2.3-1.jar 869KB

commons-logging-1.1.3.jar 61KB

jaxb-api-2.2.2.jar 103KB

curator-framework-2.7.1.jar 182KB

leveldbjni-all-1.8.jar 1021KB

jackson-mapper-asl-1.9.13.jar 762KB

log4j-1.2.17.jar 478KB

org.eclipse.core.resources.prefs 118B

xz-1.0.jar 92KB

PropertyUtil.class 2KB

PropertyUtil.java 2KB

hadoop-auth-2.7.2.jar 69KB

slf4j-api-1.7.10.jar 31KB

netty-3.6.2.Final.jar 1.14MB

zookeeper-3.4.6.jar 774KB

httpclient-4.2.5.jar 423KB

commons-httpclient-3.1.jar 298KB

jersey-json-1.9.jar 144KB

slf4j-log4j12-1.7.10.jar 9KB

jsr305-3.0.0.jar 32KB

commons-lang-2.6.jar 278KB

apacheds-kerberos-codec-2.0.0-M15.jar 675KB

commons-cli-1.2.jar 40KB

jersey-server-1.9.jar 696KB

jersey-core-1.9.jar 448KB

commons-beanutils-1.7.0.jar 184KB

commons-math3-3.1.1.jar 1.53MB

api-util-1.0.0-M20.jar 78KB

commons-codec-1.4.jar 57KB

CopyingLocalFileToHDFS.java 2KB

.classpath 5KB

xmlenc-0.52.jar 15KB

commons-net-3.1.jar 267KB

servlet-api-2.5.jar 103KB

jetty-6.1.26.jar 527KB

commons-compress-1.4.1.jar 236KB

file.properties 95B

commons-io-2.4.jar 181KB

commons-digester-1.8.jar 140KB

mockito-all-1.8.5.jar 1.35MB

jackson-xc-1.9.13.jar 26KB

gson-2.2.4.jar 186KB

共 83 条

Rabi'

粉丝: 28

Hadoop API实现本地文件上传至HDFS的示例

上传文件到HDFS

hdfs命令大全

本地文件上传到HDFS

Hadoop hdfs文件操作，mr demo,topN demo

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

SSM框架分页展示Hdfs文件列表上传文件，删除文件，下载文件前后端代码

[root@hb ~]# hadoop jar hdfs.demo-1.0-SNAPSHOT.jar Exception in thread "main" java.lang.ClassNotFoundException: hdfs.demo.HDFSApiDemo at java.net.URLClassLoader.findClass(URLClassLoader.java:387) at java.lang.ClassLoader.loadClass(ClassLoader.java:436)

JAVA操作HDFS案例的简单实现

大数据知识、面试题 HDFS、Mapreduce、hive

sparksql打包运行demo

最新资源