Hadoop笔记(day 01)
___________________________________
Linux基础配置
文本模式:
ctrl + alt + f6
开机文本模式
1.修改/etc/default/grub文件
#图形模式
#GRUB_CMDLINE_LINUX_DEFAULT="quiet"
#文本模式
#GRUB_CMDLINE_LINUX_DEFAULT="text"
2.运行update-grub更新启动项
$>sudo update-grub
3.手动启动图形界面
$>startx
客户端环境的处理
ip:100-104
主机名:s100-s104
修改DNS解析
[/etc/hosts]
127.0.0.1 s100
192.168.0.101 s101
...
LARGE DATA(什么是大数据??)
1.海量的数据
1byte = 8bit
1024B = 1M 2^10
1024M = 1G 2^10
1024G = 1T 2^10
1024T = 1P 2^10
1024P = 1E 2^10
1024E = 1Z 2^10
1024Z = 1Y 2^10
1024Y = 1N 2^10
2.存储
分布式存储.
3.计算
分布式计算.
4.Hadoop(一头大象)
0.介绍
可靠,可伸缩,分布式计算的开源软件
1.HDFS
hadoop distributed file system. GFS
2.去IOE
IBM + Oracle + EMC
3.MapReduce
简称:MR //映射和化简.编程模型(分布式计算模型)
4.推荐(广告)
large data(v4)
1.Volumn //题量大
2.Variaty //样式多
3.Velocity //速度快
4.Valueless //价值密度低
Hadoop
安装hadoop
1.安装jdk
a.解压tar包到/opt[创建符号链接]
$>ln -s /opt/jdk-xxx jdk
b.配置环境变量(/etc/environment)
JAVA_HOME=/opt/jdk
PATH="....:/opt/jdk/bin"
c.让环境变量生效
$>source /etc/environment
d.检验是否成功
$>cd ~
$>java -version
2.安装hadoop
a.解压tar包到/opt并配置环境变量
略...
b.检验是否成功
$>cd ~
$>hadoop -version
Hadoop包含3个模块
1.Hadoop Common:
支持其他模块的工具模块
2.Hadoop Distributed File System(HDFS):
分布式文件系统,提供了对应用程序数据的高吞吐量访问.
[进程]
NameNode //名称节点--NN
DataNode //数据节点--DN
SecondaryNamenode //辅助名称节点--2ndNN
3.Hadoop YARN:
yet another resource negotiate
作业调度与集群资源管理的框架
[进程]
ResourceManager //资源管理器--RM
NodeManager //节点管理器--NM
4.Hadoop MapReduce:
基于yarn系统的对打数据集进行并行处理技术
配置Hadoop
1.Standalone/local mode(默认)
独立/本地模式,使用的本地的文件系统
查看文件系统的方式:
$>hadoop fs -ls
没有启动任何java进程
用于开发和调试
2.Pseudodistributed mode
伪分布式模式
[配置过程]
a.core-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost/</value>
</property>
</configuration>
b.hdfs-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
c.mapred-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>mapreduce.framwork.name</name>
<value>yarn</value>
</property>
</configuration>
d.yarn-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
e.配置SSH
1)安装SSH
$>sudo apt-get install ssh
2)生成密钥对
$>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
3)导入公钥到密钥库
$>cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
4)登录到localhost
$>ssh localhost //不需要密码
5)格式化hdfs文件系统
$>hadoop namenode -format
6)启动所有进程
$>start-all.sh
7)查看进程
$>jps //5个进程 RM NM NN DN 2ndNN
8)查看文件系统
$>hadoop -fs -ls
9)创建文件系统
$>hadoop -fs -mkdir -p /user/ubuntu/data
$>hadoop -fs -ls -R / //等价-lsr
f.使用nc在两个client之间传递文件
0)描述
100像101传递文件
1)在101机器上
$>nc -l 6666 > ~/.ssh/id_rsa.pub.100
2)在100机器上
$>nc 192.168.0.101 6666 < ~/.ssh/id_rsa.pub
3)在101上添加公钥文件
$>cat ~/.ssh/id_rsa.pub.100 >> ~/.ssh/authorized_keys
g.Hadoop进程处理
1)查看hadoop进程个数
$>jps
NN
DN
2ndNN
RM
NM
2)如果进程数不对,杀死所有进程
$>stop-all.sh
3)重新格式化系统
$>hadoop namenode -format
4)启动所有进程
$>start-all.sh
5)jps
3.Fully distributed mode
完全分布式模式