
Hadoop
文章平均质量分 82
Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
日月星辰TEL
如果技术不用于分享,将黯然失色...
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据集群搭建之Linux安装Hive2.3.2
一、安装准备1、下载地址https://www.apache.org/dyn/closer.cgi/hive2、参考文档3、ssh免密配置https://blog.csdn.net/qq262593421/article/details/1053255934、zookeeper安装https://blog.csdn.net/qq262593421/article/details/1069554855、hadoop安装...原创 2021-08-03 10:07:38 · 938 阅读 · 0 评论 -
win10安装HBase2.1.4
win10安装Hadoop3.0.0:https://blog.csdn.net/qq262593421/article/details/105927625win10搭建hive3.0.0:https://blog.csdn.net/qq262593421/article/details/104961689原创 2021-05-30 00:04:21 · 788 阅读 · 0 评论 -
Hadoop3.0、Hive2.3.2、HBase2.1集群重置
一、hadoop集群重置1、关闭hbase和hdfsstop-habse.shstop-all.sh2、关闭zookeeperzkServer.sh stop3、删除nn、dn、jn配置目录数据rm -rf /home/cluster/hadoop/data/nn/*rm -rf /home/cluster/hadoop/data/dn/*rm -rf /home/cluster/hadoop/data/jn/*4、删除hdfs和hbase的日志文件数据rm -原创 2021-04-18 23:37:03 · 1228 阅读 · 0 评论 -
Linux报错:rm: 无法删除“xxx“: 结构需要清理
一、问题描述重新清理hdfs的时候,发现有一个文件删除不了,出现以下报错rm: 无法删除"xxx": 结构需要清理二、问题解决1、查看问题文件的挂载磁盘df -h2、卸载磁盘挂载umount /dev/mapper/centos-home3、磁盘挂载修复xfs_repair /dev/mapper/centos-home4、重启系统reboot5、重新清理文件rm -rf /home/cluster/hadoop/data/.原创 2021-04-16 09:56:27 · 7927 阅读 · 0 评论 -
CDH hadoop生态的所有组件路径
目录一、CDH自身组件1、cloudera-scm-server2、cloudera-scm-agent二、Hadoop生态组件1、hadoop2、hive3、hbase4、zookeeper5、spark三、CDH加载的环境变量一、CDH自身组件1、cloudera-scm-server/etc/cloudera-scm-server/...原创 2020-04-11 17:57:33 · 3836 阅读 · 0 评论 -
大数据实时处理框架之Flink win10快速部署
一、依赖环境安装1、jdk和scala依赖下载jdk1.8:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.htmlscala12.11:https://www.scala-lang.org/download/2、flink1.9.0下载flink官方中文文档:https://flink.apache.org/zh/downloads.htmlflink1.9.0安装包:https://...原创 2020-11-13 22:12:16 · 1913 阅读 · 0 评论 -
spark上传文件和追加文件到hdfs
一、代码实现package com.xtd.hdfsimport java.io.Fileimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.fs.{FileSystem, FileUtil, Path}import scala.collection.mutable.{ArrayBuffer, ListBuffer}object HDFSUtils { def main(args: Array[原创 2020-06-30 15:14:06 · 3568 阅读 · 0 评论 -
spark遍历hdfs目录下所有文件
1、查看hdfs /home/data/test 目录下的所有文件2、使用org.apache.hadoop.fs.FileSystem 类遍历hdfs文件package com.xtd.hdfsimport org.apache.hadoop.conf.Configurationimport org.apache.hadoop.fs.{FileSystem, FileUtil, Path}import scala.collection.mutable.{ArrayBuf...原创 2020-06-30 12:49:12 · 3893 阅读 · 0 评论 -
大数据集群之spark2.4.0高可用安装配置
一、安装准备下载地址:https://archive.apache.org/dist/spark/官方文档:http://spark.apache.org/docs/latest/二、解压安装解压缩文件cd /usr/local/hadooptar zxpf spark-2.4.0-bin-hadoop2.7.tgz2、创建软链接ln -s spark-2.4.0-bin-hadoop2.7.tgz spark三、修改配置文件slaveshadoop00.原创 2020-06-25 21:49:56 · 1842 阅读 · 0 评论 -
大数据集群之HBASE2.1.0高可用安装配置
一、安装准备下载地址:http://archive.apache.org/dist/hbase/参考文档:http://hbase.apache.org/book.htmlssh免密登录:https://blog.csdn.net/qq262593421/article/details/105325593zookeeper安装:https://blog.csdn.net/qq262593421/article/details/106955485hadoop集群安装:https://blo原创 2020-06-25 20:41:51 · 1191 阅读 · 0 评论 -
大数据集群搭建之Linux安装hadoop3.0.0
一、安装准备下载地址:https://www.apache.org/dyn/closer.cgi/hadoop/common官方文档:https://hadoop.apache.org/docs/r3.0.0/zookeeper高可用配置:https://blog.csdn.net/qq262593421/article/details/106955485hadoop集群角色 集群节点 NameNode hadoop001、hadoop002 DataNode ha原创 2020-06-25 12:06:07 · 2158 阅读 · 0 评论 -
大数据高可用技术之zookeeper3.4.5安装配置
一、安装准备下载地址:https://www.apache.org/dyn/closer.cgi/zookeeper/官方文档:https://zookeeper.apache.org/doc/r3.4.5/二、解压安装解压文件cd /usr/local/hadooptar zxpf zookeeper-3.4.5.tar.gz创建软连接ln -s zookeeper-3.4.5 zookeeper三、配置zoo.cfg文件cd /usr/local/hadoop原创 2020-06-25 11:10:35 · 1135 阅读 · 0 评论 -
shell脚本监控hadoop集群,实现集群组件宕机重启
#!/bin/bashecho '.......................................'QuorumPeerMain=$(jps | grep ' QuorumPeerMain')ZKFC=$(jps | grep ' DFSZKFailoverController')NameNode=$(jps | grep ' NameNode')DataNode=$(jps | grep ' DataNode')HMaster=$(jps | grep ' HMaster...原创 2020-06-07 17:47:41 · 1511 阅读 · 0 评论 -
SparkSQL保存DataFrame为CSV文件
ReadShipMMSITwopackage com.xtd.fileimport java.io.Fileimport org.apache.spark.rdd.RDDimport org.apache.spark.sql.{SaveMode, SparkSession}object ReadShipMMSITwo { def main(args: Array[String]): Unit = { // sparkSession val spark = S...原创 2020-05-23 10:48:13 · 4063 阅读 · 0 评论 -
CDH6.3.2 组件版本和Maven依赖版本
目录remoterepositorycomponent versiondependencytemplateartifact versionremoterepository<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM...原创 2020-05-20 12:13:30 · 8177 阅读 · 2 评论 -
Win10安装Hadoop3.0.0(大数据入门必经之路)
一、下载hadoop3.0.0下载地址:http://archive.apache.org/dist/hadoop/core/hadoop-3.0.0/下载文件:hadoop-3.0.0.tar.gz二、下载winutils工具下载地址:https://github.com/steveloughran/winutils下载文件:hadoop-3.0.0/bin三、解...原创 2020-05-05 09:56:37 · 4169 阅读 · 3 评论 -
cdh6.3.2 oozie HA 高可用配置
1、配置Oozie Load Balancer(1)进入Oozie配置页面,搜索关键字 port(2)在Oozie Load Balancer栏输入需要开启oozie的host,以逗号隔开cdh01,cdh02,cdh03,cdh04,cdh05,cdh062、配置 Oozie Load Balancer HTTP、HTTPSPort注意:定义的 htt...原创 2020-04-20 19:41:34 · 2631 阅读 · 11 评论 -
CDH6.3.2 Maven Repository: report
CDH 6.3.2The following table lists the project name, groupId, artifactId, and version required to access each CDH artifact.Project groupId artifactId version Apache Avro org.apach...翻译 2020-04-20 10:46:21 · 1617 阅读 · 2 评论 -
win10安装Hive3.0.0
hive官方文档:https://cwiki.apache.org/confluence/display/Hive/GettingStarted#GettingStarted-RunningHiveServer2andBeeline一、下载 hive 二进制文件http://archive.apache.org/dist/hive/hive-2.1.1/二、配置环境变量三...原创 2020-03-19 11:16:43 · 4016 阅读 · 5 评论 -
win10搭建hadoop和spark
一、Java环境变量配置二、hadoop环境变量配置三、spark环境变量配置四、hdfs配置1、hadoop-2.7.7\etc\hadoophadoop-env.cmd原创 2020-03-17 18:05:12 · 2000 阅读 · 0 评论 -
大数据生态圈技术文档列表
hadoop:https://hadoop.apache.org/docs/stable/hive:https://cwiki.apache.org/confluence/display/Hive/GettingStartedhbase:https://hbase.apache.org/book.htmlyarn:https://hadoop.apache.org/docs/cu...原创 2020-03-02 18:04:35 · 1684 阅读 · 1 评论 -
hadoop xml配置详解
目录1、core-size.xml2、hdfs-site.xml3、mapred-site.xml4、yarn-site.xmlhadoop的常用配置文件,不需要记,知道哪个配置有什么作用就行了,下次配置的时候可以直接拿来用。1、core-size.xml<?xml version="1.0" encoding="UTF-8"?><?xml-sty...原创 2019-10-05 10:37:02 · 2154 阅读 · 0 评论 -
MapReduce读取文本,实现降序排序
目录1、Maven导入hadoop-client包2、core-site.xml文件配置3、log4j.properties 文件配置4、Top5.java(主要代码)5、测试数据6、运行结果1、Maven导入hadoop-client包 <dependency> <groupId>org.apache.hadoop</gro...原创 2019-09-27 23:46:52 · 2308 阅读 · 0 评论 -
Hadoop 各个版本官方文档
Index of /docs Name Last modified Size Description Parent Directory - current/ 2019-09-24 14:45 - current1/ 2019-08-22 16:09 -...原创 2019-09-25 09:52:38 · 2235 阅读 · 0 评论 -
Hadoop 命令操作大全
Apache Hadoop 2.7.3 Shell 命令操作指南大全目录OverviewappendToFilecatchecksumchgrpchmodchowncopyFromLocalcopyToLocalcountcpcreateSnapshotdeleteSnapshotdfdudus...原创 2019-09-25 09:19:45 · 2432 阅读 · 0 评论