hadoop集群搭建

来源：cnblogs　　作者：奋斗的菜鸡　　时间：2018/12/19 8:59:29　　对本文有异议

准备工作

先说明我用的是centos7,

并且准备了四台虚拟机 ip分别是

192.168.36.140

192.168.36.141

192.168.36.142

192.168.36.143

一、java环境安装

1.下载jdk

去jdk下载地址下载或者在服务器中用命令下载

wget --no-check-certificate --no-cookies --header "Cookie: oraclelicense=accept-securebackup-cookie" https://download.oracle.com/otn-pub/java/jdk/8u191-b12/2787e4a523244c269598db4e85c51e0c/jdk-8u191-linux-x64.tar.gz

注意，以上jdk-8u191-linux-x64.tar.gz的地址是会变的，所以下载地址需要替换成自己的。

2.安装

创建目录

cd /usr/local/
mkdir java
cd java

接着把安装包上传到java文件夹中,解压

tar zxvf jdk-8u191-linux-x64.tar.gz

配置环境变量

vi /etc/profile

在文件的末尾输入

export JAVA_HOME=/usr/local/java/jdk1.8.0_191
export PATH=$PATH:$JAVA_HOME/bin

这里注意自己的是不是jdk1.8.0_191

使环境变量在当前bash中生效

source /etc/profile

java环境配置完毕，注意每台主机都要配置

二、hadopp下载和配置

1.下载hadoop

hadoop下载地址选择版本，这里我用的是3.1.1的

2.配置免密登录

因为启动hadoop集群我们通常是这样启动的，在主节点服务器上启动脚本，脚本里面的代码帮助我们启动我们事先配置好的从节点，这里我们如果不配置免密登录的话，早期的版本会需要自己手动输入每一台从节点主机的密码，至于这个3.1.1的版本，我发现直接报错了。(这里我也没确定是hadoop版本原因还是centos版本原因)

我选择主节点在192.168.36.140这台主机上，所以我需要在这台主机上启动

配置流程如下

在192.168.36.140这台主机上运行以下命令

ssh-keygen
ssh-copy-id 192.168.36.140
ssh-copy-id 192.168.36.141
ssh-copy-id 192.168.36.142
ssh-copy-id 192.168.36.14

ssh-keygen命令的提示全部默认回车就可以了

3.配置环境

groupadd hadoop
useradd hadoop -g hadoop

此时 /home 文件下就会多出一个hadoop的文件夹,切换文件夹

cd /home/hadoop

把之前下载的hadoop安装包上传到该文件夹下，解压

同时创建几个文件夹，后面有用

mkdir /home/hadoop/datas
mkdir /home/hadoop/datas/name
mkdir /home/hadoop/datas/data

接着配置hadoop的环境变量

参考 1.2java环境配置

末尾添加如下代码

export HADOOP_HOME=/home/hadoop/hadoop-3.1.1
export PATH=$PATH:$HADOOP_HOME/bin

4.修改配置

切换到配置文件的文件夹下

cd /home/hadoop/hadoop-3.1.1/etc/hadoop

需要修改的文件有五个、hadoop-env.sh core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml

① 首先修改hadoop-env.sh

添加

export JAVA_HOME=/usr/local/java/jdk1.8.0_191
export HDFS_NAMENODE_USER="root"
export HDFS_DATANODE_USER="root"
export HDFS_SECONDARYNAMENODE_USER="root"
export YARN_RESOURCEMANAGER_USER="root"
export YARN_NODEMANAGER_USER="root"

在低版本中不需要配置这五个user，但3.1.1版本中不配置的话会提示这些user未定义

② 修改 core-site.xml

<configuration>
  <property>
      <name>fs.defaultFS</name>
      <value>hdfs://192.168.36.140:9000</value>
  </property>
</configuration>

③ 修改 hdfs-site.xml

<configuration>
 
<!-- Configurations for NameNode: -->
<property>
  <name>dfs.namenode.name.dir</name>
  <value>/home/hadoop/datas/name</value>
  <description>namenode产生的元数据信息保存目录</description>
</property>
 
<property>
  <name>dfs.blocksize</name>
  <value>268435456</value>
 <description>文件分块大小，决定map的数量</description>
 
</property>
 
<property>
  <name>dfs.namenode.handler.count  </name>
  <value>100</value>
</property>
 
<!-- Configurations for DataNode: -->
 
<property>
  <name>dfs.datanode.data.dir</name>
  <value>/home/hadoop/datas/data/</value>
</property>
 
<property>
    <name>dfs.replication</name>
    <value>3</value>
<description>副本数量</description>
</property>
 
<property>
         <name>dfs.secondary.http.address</name>
         <value>192.168.36.141:50090</value>
          <description>secondarynamenode 运行节点的信息，和 namenode 不同节点</description>
</property>
 
 
</configuration>

④修改 yarn-site.xml

<configuration>
 
<!-- Site specific YARN configuration properties -->
 
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>192.168.36.143</value>
          <description>yarn resourcemanager的主机</description>
        </property>

        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
                <description>YARN 集群为 MapReduce 程序提供的 shuffle 服务</description>
        </property>
 
</configuration>

⑤修改 mapred-site.xml

<configuration>
  <!-- Configurations for MapReduce Applications: -->
  <property>
       <name>mapreduce.framework.name</name>
       <value>yarn</value>
   </property>
</configuration>

修改完毕，最后确保每一台主机都如上配置，以上配置每台节点一模一样

修改192.168.36.140主节点文件夹下workers ,让主节点知道去哪台节点上启动

5.格式化目录

192.168.36.140主节点上执行

hadoop namenode -format

最后记得关闭所有主机的防火墙

systemctl stop firewalld.service
systemctl disable firewalld.service

6 启动

在hadoop-3.1.1目录下执行命令

sbin/start-all.sh

友情链接：直通硅谷　点职佳　北美留学生论坛

HBASE的安装过程及运行HBASE程序的需要配置的内容

hadoop--Unable to load native-hadoop library for your platform解决方法

Hive sampling 语法之TABLESAMPLE用法理解

idea项目运行时报错提示Could not locate executable null\bin\winutils.exe in the Hadoop binaries

hadoop 无法访问50070端口问题解决

Hadoop运行时遇到java.io.FileNotFoundException错误的解决方法

KUDU数据导入尝试一：TextFile数据导入Hive,Hive数据导入KUDU

Hive安装

Hadoop 学习笔记生态

Hadoop推荐文章

基于Hive的大数据分析系统

HBase 在统一内容平台业务的优化实践

hive窗口分析函数使用详解系列一

两台实体机器4个虚拟机节点的Hadoop集群搭建（Ubuntu版）

在阿里云和腾讯云的轻量应用服务器上搭建Hadoop集群

Haproxy搭建 Web 群集实现负载均衡

HBase Compaction 原理与线上调优实践

Hive执行计划之hive依赖及权限查询和常见使用场景

工良出品：包教会，Hadoop、Hive 搭建部署简易教程

Centos7系统编译Hadoop3.3.4