1.4 Apache Hadoop完全分布式集群搭建-hadoop-最全最完整的保姆级的java大数据学习资料

来源：cnblogs　　作者：假装文艺范儿　　时间：2022/12/5 9:26:55　　对本文有异议

1.4 Apache Hadoop 完全分布式集群搭建

1.4 Apache Hadoop 完全分布式集群搭建

软件和操作系统版本
Hadoop框架是采用Java语言编写，需要java环境（jvm）
JDK版本：JDK8版本
集群：
知识点学习：统一使用vmware虚拟机虚拟三台linux节点，linux操作系统：Centos7
生产阶段：建议最少5台服务器节点
Hadoop搭建方式
单机模式：单节点模式，非集群，生产不会使用这种方式
单机伪分布式模式：单节点，多线程模拟集群的效果，生产不会使用这种方式
完全分布式模式：多台节点，真正的分布式Hadoop集群的搭建（生产环境建议使用这种方式）

1.4.1 虚拟机环境准备

三台虚拟机（静态IP，关闭防火墙，修改主机名，配置免密登录，集群时间同步）
在/opt目录下创建文件夹

#软件安装包存放目录
mkdir -p /opt/lagou/software
#软件安装目录
mkdir -p /opt/lagou/servers

Hadoop下载地址：

? https://archive.apache.org/dist/hadoop/common/hadoop-2.9.2/

? Hadoop官网地址：

? http://hadoop.apache.org/

上传hadoop安装文件到/opt/lagou/software

1.4.2 集群规划

框架	linux121	linux122	linux123
HDFS	NameNode、DataNode	DataNode	SecondaryNameNode、DataNode
YARN	NodeManager	NodeManager	NodeManager、ResourceManager

1.4.3 安装Hadoop

登录linux121节点；进入/opt/lagou/software,解压安装文件到/opt/lagou/servers

tar -zxvf hadoop-2.9.2.tar.gz -C /opt/lagou/servers

查看是否解压成功

ll /opt/lagou/servers/hadoop-2.9.2

添加Hadoop到环境变量 vim /etc/profile

#HADOOP_HOME 
export HADOOP_HOME=/opt/lagou/servers/hadoop-2.9.2 export PATH=$PATH:$HADOOP_HOME/bin 
export PATH=$PATH:$HADOOP_HOME/sbin

使环境变量生效

source /etc/profile

验证hadoop

hadoop version

? 校验结果：
在这里插入图片描述

bin目录：对Hadoop进行操作的相关命令，如hadoop,hdfs等
etc目录：Hadoop的配置文件目录，如hdfs-site.xml,core-site.xml等
lib目录：Hadoop本地库（解压缩的依赖）
sbin目录：存放的是Hadoop集群启动停止相关脚本，命令
share目录：Hadoop的一些jar,官方案例jar，文档等

1.4.3.1 集群配置

Hadoop集群配置 = HDFS集群配置 + MapReduce集群配置 + Yarn集群配置

HDFS集群配置
1. 将JDK路径明确配置给HDFS（修改hadoop-env.sh）
2. 指定NameNode节点以及数据存储目录（修改core-site.xml）
3. 指定SecondaryNameNode节点（修改hdfs-site.xml）
4. 指定DataNode从节点（修改etc/hadoop/slaves文件，每个节点配置信息占一行）
MapReduce集群配置
1. 将JDK路径明确配置给MapReduce（修改mapred-env.sh）
2. 指定MapReduce计算框架运行Yarn资源调度框架（修改mapred-site.xml）
Yarn集群配置
1. 将JDK路径明确配置给Yarn（修改yarn-env.sh）
2. 指定ResourceManager老大节点所在计算机节点（修改yarn-site.xml）
3. 指定NodeManager节点（会通过slaves文件内容确定）

集群配置具体步骤：

1.4.3.1.1 HDFS集群配置

cd /opt/lagou/servers/hadoop-2.9.2/etc/hadoop

配置：hadoop-env.sh

将JDK路径明确配置给HDFS

vim hadoop-env.sh

export JAVA_HOME=/opt/lagou/servers/jdk1.8.0_231

指定NameNode节点以及数据存储目录（修改core-site.xml）

vim core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property> 
	<name>fs.defaultFS</name> 
	<value>hdfs://linux121:9000</value> 
</property> 
<!-- 指定Hadoop运行时产生文件的存储目录 --> 
<property> 
	<name>hadoop.tmp.dir</name> 
	<value>/opt/lagou/servers/hadoop-2.9.2/data/tmp</value>
</property>

core-site.xml的默认配置：

https://hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-common/core-default.xml

指定secondarynamenode节点(修改hdfs-site.xml)

vim hdfs-site.xml

<!-- 指定Hadoop辅助名称节点主机配置 --> 
<property> 
	<name>dfs.namenode.secondary.http-address</name> 
    <value>linux123:50090</value> 
</property> 
<!-- 副本数量 --> 
<property> 
	<name>dfs.replication</name> 
	<value>3</value> 
</property>

官方默认配置
https://hadoop.apache.org/docs/r2.9.2/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

指定datanode从节点(修改slaves文件，每个节点配置信息占一行)

? vim slaves

linux121
linux122
linux123

注意：该文件中添加的内容结尾不允许有空格，文件中不允许有空行。

1.4.3.1.2 MapReduce集群配置

指定MapReduce使用的jdk路径（修改mapred-env.sh）

vim mapred-env.sh

export JAVA_HOME=/opt/lagou/servers/jdk1.8.0_231

指定MapReduce计算框架运行Yarn资源调度框架(修改mapred-site.xml)

mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml

<!-- 指定MR运行在Yarn上 --> 
<property> 
	<name>mapreduce.framework.name</name> 
	<value>yarn</value> 
</property>

mapred-site.xml默认配置

https://hadoop.apache.org/docs/r2.9.2/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

1.4.3.1.3 Yarn集群配置

指定JDK路径

? vim yarn-env.sh

export JAVA_HOME=/opt/lagou/servers/jdk1.8.0_231

指定ResourceManager的master节点信息(修改yarn-site.xml)

? vim yarn-site.xml

<!-- 指定YARN的ResourceManager的地址 --> 
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>linux123</value>
</property>
<!-- Reducer获取数据的方式 --> 
<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>

yarn-site.xml的默认配置

https://hadoop.apache.org/docs/r2.9.2/hadoop-yarn/hadoop-yarn-common/yarn-default.xml

指定NodeManager节点（slaves文件已修改）

注意：
Hadoop安装目录所属用户和所属用户组信息，默认是501 dialout，而我们操作Hadoop集群的用户使用的是虚拟机的root用户，所以为了避免出现信息混乱，修改Hadoop安装目录所属用户和用户组！！!

chown -R root:root /opt/lagou/servers/hadoop-2.9.2

1.4.3.2 分发配置

编写集群分发脚本rsync-script

rsync 远程同步工具

rsync主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。

rsync和scp区别：用rsync做文件的复制要比scp的速度快，rsync只对差异文件做更新。scp是把所有文件都复制过去。

基本语法

rsync   -rvl 		$pdir/$fname 	 $user@$host:$pdir/$fname

? 命令选项参数要拷贝的文件路径/名称目的用户@主机:目的路径/名称

选项参数说明

表2-2

选项	功能
-r	递归
-v	显示复制过程
-l	拷贝符号连接

rsync案例
1. 三台虚拟机安装rsync (执行安装需要保证机器联网)
```
[root@linux121 ~]# yum install -y rsync
```
1. 把linux121机器上的/opt/lagou/software目录同步到linux122服务器的root用户下的/opt/目录
```
[root@linux121 opt]$ rsync -rvl /opt/lagou/software/ root@linux122:/opt/lagou/software
```

集群分发脚本编写

需求：循环复制文件到集群所有节点的相同目录下

rsync命令原始拷贝：
```
rsync  -rvl  	/opt/module 	root@linux123:/opt/
```
期望脚本
脚本+要同步的文件名称
说明：在/usr/local/bin这个目录下存放的脚本，root用户可以在系统任何地方直接执行。

脚本实现
（1）在/usr/local/bin目录下创建文件rsync-script，文件内容如下：

[root@linux121 bin]$ touch rsync-script
[root@linux121 bin]$ vim rsync-script

在文件中编写shell代码

#!/bin/bash
#1 获取命令输入参数的个数，如果个数为0，直接退出命令 paramnum=$# 
if((paramnum==0)); then 
echo no params; 
exit; 
fi
  
#2 根据传入参数获取文件名称 
p1=$1
file_name=`basename $p1`
echo fname=$file_name
  
#3 获取输入参数的绝对路径
pdir=`cd -P $(dirname $p1); pwd`
echo pdir=$pdir
  
#4 获取用户名称
user=`whoami`
  
#5 循环执行rsync 
for((host=121; host<124; host++)); do 
echo ------------------- linux$host -------------- 
rsync -rvl $pdir/$file_name $user@linux$host:$pdir 
done

（2）修改脚本 rsync-script 具有执行权限

[root@linux121 bin]$ chmod 777 rsync-script

（3）调用脚本形式：rsync-script 文件名称

[root@linux121 bin]$ rsync-script /home/root/bin

（4）调用脚本分发Hadoop安装目录到其它节点

[root@linux121 bin]$ rsync-script /opt/lagou/servers/hadoop-2.9.2

1.4.4 启动集群

注意：如果集群是第一次启动，需要在Namenode所在节点格式化NameNode，非第一次不用执行格式化Namenode操作！！!

1.4.4.1 单节点启动

[root@linux121 hadoop-2.9.2]$ hadoop namenode -format

格式化命令执行效果：
在这里插入图片描述
格式化后创建的文件：/opt/lagou/servers/hadoop-2.9.2/data/tmp/dfs/name/current

在linux121上启动NameNode

[root@linux121 hadoop-2.9.2]$ hadoop-daemon.sh start namenode
[root@linux121 hadoop-2.9.2]$ jps

在linux121、linux122以及linux123上分别启动DataNode

[root@linux121 hadoop-2.9.2]$ hadoop-daemon.sh start datanode
[root@linux121 hadoop-2.9.2]$ jps
3461 NameNode
3608 Jps
3561 DataNode
[root@linux122 hadoop-2.9.2]$ hadoop-daemon.sh start datanode
[root@linux122 hadoop-2.9.2]$ jps
3190 DataNode
3279 Jps
[root@linux123 hadoop-2.9.2]$ hadoop-daemon.sh start datanode
[root@linux123 hadoop-2.9.2]$ jps
3237 Jps
3163 DataNode

web端查看hdfs界面

http://linux121:50070/dfshealth.html#tab-overview

在这里插入图片描述

查看HDFS集群正常节点：

在这里插入图片描述

Yarn集群单节点启动

[root@linux123 servers]# yarn-daemon.sh start resourcemanager
[root@linux123 servers]# jps
7881 ResourceManager 
8094 Jps
[root@linux122 servers]# yarn-daemon.sh start nodemanager
[root@linux122 servers]# jps
8166 NodeManager
8223 Jps
[root@linux121 servers]# yarn-daemon.sh start nodemanager
[root@linux121 servers]# jps
8166 NodeManager
8223 Jps

思考：Hadoop集群每次需要一个一个节点的启动，如果节点数增加到成千上万个怎么办？

1.4.4.2 集群群起

如果已经单节点方式启动了Hadoop,可以先停止之前的启动的Namenode与Datanode进程,如果之前Namenode没有执行格式化，这里需要执行格式化!!!!
```
hadoop namenode -format
```

启动HDFS

[root@linux121 hadoop-2.9.2]$ sbin/start-dfs.sh
[root@linux121 hadoop-2.9.2]$ jps
4166 NameNode
4482 Jps
4263 DataNode
[root@linux122 hadoop-2.9.2]$ jps
3218 DataNode
3288 Jps
[root@linux123 hadoop-2.9.2]$ jps
3221 DataNode
3283 SecondaryNameNode
3364 Jps

启动YARN

[root@linux123 hadoop-2.9.2]$ sbin/start-yarn.sh

? 注意：NameNode和ResourceManger不是在同一台机器，不能在NameNode上启动 YARN，应该在ResouceManager所在的机器上启动YARN。

1.4.4.3 Hadoop集群启动停止命令汇总

各个服务组件逐一启动/停止

分别启动/停止HDFS组件

hadoop-daemon.sh  start / stop  namenode / datanode / secondarynamenode

启动/停止YARN

yarn-daemon.sh  start / stop  resourcemanager / nodemanager

各个模块分开启动/停止（配置ssh是前提）常用
1. 整体启动/停止HDFS
```
start-dfs.sh  /  stop-dfs.sh
```
2. 整体启动/停止YARN
```
start-yarn.sh  /  stop-yarn.sh
```

1.4.5 集群测试

HDFS 分布式存储初体验

从linux本地文件系统上传下载文件验证HDFS集群工作正常

hdfs dfs -mkdir -p /test/input
#本地hoome目录创建一个文件
cd /root
vim test.txt
hello hdfs
#上传linxu文件到Hdfs
hdfs dfs -put /root/test.txt  /test/input
#从Hdfs下载文件到linux本地
hdfs dfs -get /test/input/test.txt

MapReduce 分布式计算初体验

在HDFS文件系统根目录下面创建一个wcinput文件夹
```
[root@linux121 hadoop-2.9.2]$ hdfs dfs -mkdir /wcinput
```

在/root/目录下创建一个wc.txt文件(本地文件系统)

[root@linux121 hadoop-2.9.2]$ cd /root/
[root@linux121 wcinput]$ touch wc.txt

编辑wc.txt文件
```
[root@linux121 wcinput]$ vi wc.txt
```

在文件中输入如下内容

hadoop mapreduce yarn
hdfs hadoop mapreduce
mapreduce yarn lagou
lagou
lagou

保存退出
```
: wq! 
```
上传wc.txt到Hdfs目录/wcinput下
```
hdfs dfs -put wc.txt /wcinput
```
回到Hadoop目录/opt/lagou/servers/hadoop-2.9.2

执行程序

[root@linux121 hadoop-2.9.2]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /wcinput /wcoutput

查看结果

[root@linux121 hadoop-2.9.2]$ hdfs dfs -cat /wcoutput/part-r-00000
hadoop 	 	2
hdfs		1
lagou 		3
mapreduce	3
yarn		2

1.4.6 配置历史服务器

在Yarn中运行的任务产生的日志数据不能查看，为了查看程序的历史运行情况，需要配置一下历史日志服务器。具体配置步骤如下：

配置mapred-site.xml

[root@linux121 hadoop]$ vi mapred-site.xml

在该文件里面增加如下配置。

<!-- 历史服务器端地址 -->
<property>
	<name>mapreduce.jobhistory.address</name>
	<value>linux121:10020</value>
</property>
<!-- 历史服务器web端地址 -->
<property>
	<name>mapreduce.jobhistory.webapp.address</name>
    <value>linux121:19888</value>
</property>

分发mapred-site.xml到其它节点
```
rsync-script mapred-site.xml
```

启动历史服务器

[root@linux121 hadoop-2.9.2]$ sbin/mr-jobhistory-daemon.sh start historyserver

查看历史服务器是否启动
```
[root@linux121 hadoop-2.9.2]$ jps
```
查看JobHistory
http://linux121:19888/jobhistory

1.4.6.1 配置日志的聚集

日志聚集：应用(Job)运行完成以后，将应用运行日志信息从各个task汇总上传到HDFS系统上。

日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。

注意：开启日志聚集功能，需要重新启动NodeManager 、ResourceManager和 HistoryManager。

开启日志聚集功能具体步骤如下：

配置yarn-site.xml

[root@linux121 hadoop]$ vi yarn-site.xml

在该文件里面增加如下配置。

<!-- 日志聚集功能开启 -->
<property>
	<name>yarn.log-aggregation-enable</name>
	<value>true</value>
</property>
<!-- 日志保留时间设置7天 -->
<property>
	<name>yarn.log-aggregation.retain-seconds</name>
    <value>604800</value>
</property>
<property>
    <name>yarn.log.server.url</name>
    <value>http://linux121:19888/jobhistory/logs</value>
</property>

分发yarn-site.xml到集群其它节点
```
rsync-script yarn-site.xml
```

关闭NodeManager 、ResourceManager和HistoryManager

[root@linux121 hadoop-2.9.2]$ sbin/yarn-daemon.sh stop resourcemanager
[root@linux121 hadoop-2.9.2]$ sbin/yarn-daemon.sh stop nodemanager
[root@linux121 hadoop-2.9.2]$ sbin/mr-jobhistory-daemon.sh stop historyserver

启动NodeManager 、ResourceManager和HistoryManager

[root@linux121 hadoop-2.9.2]$ sbin/yarn-daemon.sh start resourcemanager
[root@linux121 hadoop-2.9.2]$ sbin/yarn-daemon.sh start nodemanager
[root@linux121 hadoop-2.9.2]$ sbin/mr-jobhistory-daemon.sh start historyserver

删除HDFS上已经存在的输出文件

[root@linux121 hadoop-2.9.2]$ bin/hdfs dfs -rm -R /wcoutput

执行WordCount程序

[root@linux121 hadoop-2.9.2]$ hadoop jar share/hadoop/mapreduce/hadoop- mapreduce-examples-2.9.2.jar wordcount /wcinput /wcoutput

查看日志，如图所示

http://linux121:19888/jobhistory

在这里插入图片描述

原文链接：https://www.cnblogs.com/gitBook/p/16951456.html

友情链接：直通硅谷　点职佳　北美留学生论坛

HBASE的安装过程及运行HBASE程序的需要配置的内容

hadoop--Unable to load native-hadoop library for your platform解决方法

Hive sampling 语法之TABLESAMPLE用法理解

idea项目运行时报错提示Could not locate executable null\bin\winutils.exe in the Hadoop binaries

hadoop 无法访问50070端口问题解决

Hadoop运行时遇到java.io.FileNotFoundException错误的解决方法

KUDU数据导入尝试一：TextFile数据导入Hive,Hive数据导入KUDU

Hive安装

Hadoop 学习笔记生态

Hadoop推荐文章

基于Hive的大数据分析系统

HBase 在统一内容平台业务的优化实践

hive窗口分析函数使用详解系列一

两台实体机器4个虚拟机节点的Hadoop集群搭建（Ubuntu版）

在阿里云和腾讯云的轻量应用服务器上搭建Hadoop集群

Haproxy搭建 Web 群集实现负载均衡

HBase Compaction 原理与线上调优实践

Hive执行计划之hive依赖及权限查询和常见使用场景

工良出品：包教会，Hadoop、Hive 搭建部署简易教程

Centos7系统编译Hadoop3.3.4