Hadoop入门与配置-CSDN博客

本文链接：https://blog.csdn.net/qq_36040184/article/details/71296660

Hadoop笔记(day 01)

___________________________________

Linux基础配置

文本模式:

ctrl + alt + f6

开机文本模式

1.修改/etc/default/grub文件
#图形模式
#GRUB_CMDLINE_LINUX_DEFAULT="quiet"
#文本模式
#GRUB_CMDLINE_LINUX_DEFAULT="text"
2.运行update-grub更新启动项
$>sudo update-grub
3.手动启动图形界面
$>startx

客户端环境的处理

ip:100-104
主机名:s100-s104

修改DNS解析

[/etc/hosts]
127.0.0.1 s100
192.168.0.101 s101
...

LARGE DATA(什么是大数据??)

1.海量的数据

1byte = 8bit
1024B = 1M 2^10
1024M = 1G 2^10
1024G = 1T 2^10
1024T = 1P 2^10
1024P = 1E 2^10
1024E = 1Z 2^10
1024Z = 1Y 2^10
1024Y = 1N 2^10

2.存储

分布式存储.

3.计算

分布式计算.

4.Hadoop(一头大象)

0.介绍
    可靠,可伸缩,分布式计算的开源软件
1.HDFS
    hadoop distributed file system. GFS
2.去IOE
    IBM + Oracle + EMC
3.MapReduce
    简称:MR   //映射和化简.编程模型(分布式计算模型)
4.推荐(广告)

large data(v4)

1.Volumn    //题量大
2.Variaty   //样式多
3.Velocity  //速度快
4.Valueless //价值密度低

Hadoop

安装hadoop

1.安装jdk
    a.解压tar包到/opt[创建符号链接]
        $>ln -s /opt/jdk-xxx jdk
    b.配置环境变量(/etc/environment)
        JAVA_HOME=/opt/jdk
        PATH="....:/opt/jdk/bin"
    c.让环境变量生效
        $>source /etc/environment
    d.检验是否成功
        $>cd ~
        $>java -version
2.安装hadoop
    a.解压tar包到/opt并配置环境变量
        略...
    b.检验是否成功
        $>cd ~
        $>hadoop -version

Hadoop包含3个模块

1.Hadoop Common:
    支持其他模块的工具模块
2.Hadoop Distributed File System(HDFS):
    分布式文件系统,提供了对应用程序数据的高吞吐量访问.
    [进程]
    NameNode    //名称节点--NN
    DataNode    //数据节点--DN
    SecondaryNamenode   //辅助名称节点--2ndNN
3.Hadoop YARN:
    yet another resource negotiate
    作业调度与集群资源管理的框架
    [进程]
    ResourceManager //资源管理器--RM
    NodeManager //节点管理器--NM
4.Hadoop MapReduce:
    基于yarn系统的对打数据集进行并行处理技术

配置Hadoop

1.Standalone/local mode(默认)
    独立/本地模式,使用的本地的文件系统
    查看文件系统的方式:
    $>hadoop fs -ls
    没有启动任何java进程
    用于开发和调试
2.Pseudodistributed mode
    伪分布式模式
    [配置过程]
    a.core-site.xml
        <?xml version="1.0" encoding="UTF-8"?>
        <configuration>
            <property>
                <name>fs.defaultFS</name>
                <value>hdfs://localhost/</value>
            </property>
        </configuration>

    b.hdfs-site.xml
        <?xml version="1.0" encoding="UTF-8"?>
        <configuration>
            <property>
                <name>dfs.replication</name>
                <value>1</value>
            </property>
        </configuration>

    c.mapred-site.xml
        <?xml version="1.0" encoding="UTF-8"?>
        <configuration>
            <property>
                <name>mapreduce.framwork.name</name>
                <value>yarn</value>
            </property>
        </configuration>

    d.yarn-site.xml
        <?xml version="1.0" encoding="UTF-8"?>
        <configuration>
            <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>localhost</value>
            </property>
            <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
            </property>
        </configuration>

    e.配置SSH
        1)安装SSH
            $>sudo apt-get install ssh
        2)生成密钥对
            $>ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
        3)导入公钥到密钥库
            $>cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
        4)登录到localhost
            $>ssh localhost    //不需要密码
        5)格式化hdfs文件系统
            $>hadoop namenode -format
        6)启动所有进程
            $>start-all.sh
        7)查看进程
            $>jps  //5个进程 RM NM NN DN 2ndNN
        8)查看文件系统
            $>hadoop -fs -ls
        9)创建文件系统
            $>hadoop -fs -mkdir -p /user/ubuntu/data
            $>hadoop -fs -ls -R /  //等价-lsr

    f.使用nc在两个client之间传递文件
        0)描述
            100像101传递文件
        1)在101机器上
            $>nc -l 6666 > ~/.ssh/id_rsa.pub.100
        2)在100机器上
            $>nc 192.168.0.101 6666 < ~/.ssh/id_rsa.pub
        3)在101上添加公钥文件
            $>cat ~/.ssh/id_rsa.pub.100 >> ~/.ssh/authorized_keys

    g.Hadoop进程处理
        1)查看hadoop进程个数
            $>jps
                NN
                DN
                2ndNN
                RM
                NM

        2)如果进程数不对,杀死所有进程
            $>stop-all.sh
        3)重新格式化系统
            $>hadoop namenode -format
        4)启动所有进程
            $>start-all.sh
        5)jps

3.Fully distributed mode
    完全分布式模式