1.利用Hadoop提供的Shell命令完成下列任务。\n （1）向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，由用户指定是追加到原有文件末尾还是覆盖原有的文件；

在Hadoop环境下，你可以使用Hadoop分布式文件系统（HDFS）的`hdfs`命令行工具来完成这个任务。以下是基本步骤： 1. **上传文本文件**（假设你已经在本地有文件名为`myfile.txt`）： - 使用`hdfs dfs`命令，语法如下： ``` hdfs dfs -put myfile.txt [hdfs路径] ``` 这里，`myfile.txt`是你想上传的本地文件名，`[hdfs路径]`是你想要将文件保存的位置，如`/user/hadoop/myfile.txt`。 2. **选择操作模式（追加或覆盖）**： - 如果文件已存在并且你想追加内容，你可以先检查文件是否已存在，例如： ``` hdfs dfs -test -e /path/to/myfile.txt ``` 如果返回结果为`true`，说明文件存在。然后使用`-append`选项追加： ``` hdfs dfs -append myfile.txt /path/to/myfile.txt ``` - 如果你想覆盖现有文件，直接`put`即可，无需额外操作。请注意，你需要确保你有足够的权限来写入HDFS，并且连接到了正确的Hadoop集群。如果你不确定如何配置或运行Hadoop Shell，可以查阅相关文档或参考Hadoop的官方教程。

在右侧代码区填充代码，实现如下功能：删除HDFS的/user/hadoop/目录（空目录）；删除HDFS的/tmp/test/目录（非空目录）；列出HDFS根目录下所有的文件和文件夹；列出HDFS下/tmp/的所有文件和文件夹。package step4; import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.FileUtil; import org.apache.hadoop.fs.Path; public class FileSystemDelete { public static void main(String[] args) throws IOException { //请在 Begin-End 之间添加代码，完成本关任务。 /***** Begin / / End *****/ } }

### 代码概述该代码用于操作HDFS文件系统，具体包括删除HDFS上的两个目录（一个为空目录，另一个为非空目录），以及列出HDFS根目录和`/tmp/`目录下的所有文件和文件夹。 ### 代码解析首先，我们需要获取HDFS的文件系统对象。接着，执行以下操作： 1. 删除`/user/hadoop/`这个空目录。 2. 删除`/tmp/test/`这个非空目录。由于是非空目录，需要设置递归删除选项。 3. 列出HDFS根目录`/`下的所有文件和文件夹。 4. 列出`/tmp/`目录下的所有文件和文件夹。下面是完整的代码实现： ```java package step4; import java.io.IOException; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.FileUtil; import org.apache.hadoop.fs.Path; public class FileSystemDelete { public static void main(String[] args) throws IOException { // 获取HDFS文件系统对象 Configuration conf = new Configuration(); FileSystem fs = FileSystem.get(URI.create("hdfs://localhost:9000"), conf); /********* Begin *********/ // 删除/user/hadoop/这个空目录 Path userPath = new Path("/user/hadoop"); if (fs.exists(userPath)) { fs.delete(userPath, false); // false表示不递归删除 } // 删除/tmp/test/这个非空目录 Path tmpTestPath = new Path("/tmp/test"); if (fs.exists(tmpTestPath)) { fs.delete(tmpTestPath, true); // true表示递归删除 } // 列出HDFS根目录下的所有文件和文件夹 FileStatus[] rootStatuses = fs.listStatus(new Path("/")); for (FileStatus status : rootStatuses) { System.out.println(status.getPath()); } // 列出/tmp/目录下的所有文件和文件夹 FileStatus[] tmpStatuses = fs.listStatus(new Path("/tmp")); for (FileStatus status : tmpStatuses) { System.out.println(status.getPath()); } /********* End *********/ // 关闭文件系统对象 fs.close(); } } ``` ### 知识点 1. **HDFS文件系统操作**：通过`FileSystem`类提供的API操作HDFS，如删除目录、列出目录内容等。 2. **递归删除**：`delete`方法的第二个参数控制是否递归删除，默认为`false`。 3. **路径管理**：使用`Path`类来表示HDFS中的路径，便于文件系统的操作。

package step3; import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.IOException; import java.io.InputStream; import java.net.URI; import java.io.File; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IOUtils; import org.apache.hadoop.util.Progressable; public class FileSystemUpload { public static void main(String[] args) throws IOException { //请在 Begin-End 之间添加代码，完成任务要求。 /***** Begin / / End *****/ } } 在右侧代码编辑区和命令行中，编写代码与脚本实现如下功能：在/develop/input/目录下创建hello.txt文件，并输入如下数据：迢迢牵牛星，皎皎河汉女。纤纤擢素手，札札弄机杼。终日不成章，泣涕零如雨。河汉清且浅，相去复几许？盈盈一水间，脉脉不得语。《迢迢牵牛星》使用FSDataOutputStream对象将文件上传至HDFS的/user/tmp/目录下，并打印进度。

### 代码概述该代码段旨在实现在本地创建文件`hello.txt`并将其内容写入，然后利用Hadoop的`FSDataOutputStream`对象将此文件上传到HDFS指定路径。此外，在上传过程中会打印上传进度。为了实现这个功能，我们需要分两步走：首先是在本地文件系统中创建文件并写入数据；其次，使用Hadoop提供的API将该文件上传到HDFS。 ### 代码解析 1. **创建并写入本地文件** - 使用`BufferedInputStream`和`FileInputStream`读取字符串数据并写入本地文件。 - 文件路径为`/develop/input/hello.txt`，内容为给定诗句。 2. **连接到HDFS** - 初始化`Configuration`对象并设置`fs.defaultFS`为HDFS的URI。 - 获取`FileSystem`实例用于后续操作。 3. **上传文件至HDFS** - 创建一个`Progressable`匿名类来跟踪上传进度。 - 使用`create()`方法创建目标文件流，并通过循环将本地文件内容逐块写入HDFS，同时输出进度信息。 - 最后关闭所有打开的文件流以确保资源被正确释放。下面是具体的实现代码： ```java package step3; import java.io.BufferedInputStream; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream; import java.net.URI; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IOUtils; import org.apache.hadoop.util.Progressable; public class FileSystemUpload { public static void main(String[] args) throws IOException { // Step 1: Create and write local file String content = "迢迢牵牛星，皎皎河汉女。\n" + "纤纤擢素手，札札弄机杼。\n" + "终日不成章，泣涕零如雨。\n" + "河汉清且浅，相去复几许？\n" + "盈盈一水间，脉脉不得语。\n" + "《迢迢牵牛星》"; File file = new File("/develop/input/hello.txt"); try (OutputStream out = new FileOutputStream(file)) { out.write(content.getBytes()); } // Step 2: Connect to HDFS and upload file Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs://localhost:9870"); // 修改为你的HDFS地址 FileSystem fs = FileSystem.get(URI.create("hdfs://localhost:9870"), conf); Path src = new Path("/develop/input/hello.txt"); Path dst = new Path("/user/tmp/hello.txt"); try (InputStream in = new BufferedInputStream(new FileInputStream(file)); FSDataOutputStream out = fs.create(dst, new Progressable() { @Override public void progress() { System.out.print("."); } })) { IOUtils.copyBytes(in, out, conf, true); } fs.close(); } } ``` ### 知识点 1. **HDFS API基础** 使用Hadoop提供的API进行文件上传，包括配置`Configuration`和获取`FileSystem`实例。 2. **文件流操作** 使用Java的I/O流处理文件读写，包括创建文件、写入内容以及从本地读取文件。 3. **Progressable接口** 实现`Progressable`接口来监控和展示HDFS文件上传进度。

阅读全文

1.利用Hadoop提供的Shell命令完成下列任务。\n （1） 向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，由用户指定是追加到原有文件末尾还是覆盖原有的文件；

相关推荐

Hadoop 编译 64 位本地库 方法

外网无法访问HDFS org.apache.hadoop.hdfs.BlockMissingException: Could not obtain block

取代而非补充，Spark Summit2014精彩回顾

Hadoop HDFS_Shell命令详解.pdf

Hadoop环境搭建和HDFS Shell命令

3.Hadoop之HDFS.md

HDFS.zip_Hadoop 平台_hadoop_hdfs

Hadoop hdfs.md

Hadoop常用shell命令

hdfs.rar_hadoop_hadoop ubuntu_hdfs_分布式系统_基于hadoop

hadoop的shell命令大全

Hadoop HDFS Shell 命令全览

Hadoop HDFS操作实践：Shell命令与JavaAPI

Hadoop 3 HDFS中分布式存储文件数据的服务角色是： Hadoop 3 HDFS分布式部署默认的Web管理系统端口是： ( ) 使用JAVA操作Hadoop HDFS API中表示分布式文件系统的类是

Java基础教程：从入门到实践

大家在看

离心泵特性曲线计算程序VB源代码包

python的预测房价模型组合代码.zip

中国检查徽章背景的检察机关PPT模板

WinUSB4NuVCOM_NUC970+NuWriter.rar

indonesia-geojson:印度尼西亚GEOJSON文件收集

最新推荐

企业级大数据项目之数据仓库.docx

Hadoop框架之HDFS的shell操作

深入浅出解析大数据平台架构.docx

大数据管理_概念_技术与挑战_孟小峰.pdf

HDFS文件系统基本文件命令、编程读写HDFS

构建基于ajax, jsp, Hibernate的博客网站源码解析

【Unity Sunny Land关卡设计高级指南】：打造完美关卡的8大技巧

C++ 模版

C#随机数摇奖系统功能及隐藏开关揭秘

【数据驱动的力量】：管道缺陷判别方法论与实践经验

1.利用Hadoop提供的Shell命令完成下列任务。\n （1）向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，由用户指定是追加到原有文件末尾还是覆盖原有的文件；

Hadoop 编译 64 位本地库方法