Hadoop 伪分布式环境搭建——hadoop2.8+centos7(零基础&完整版) - Go语言中文社区

Hadoop 伪分布式环境搭建——hadoop2.8+centos7(零基础&完整版)


引言:

环境:

1、虚拟机:VMware14pro

2、操作系统:centos7

3、Jdk版本:java SE 1.8.0

4、hadoop版本:2.8.4

5、远程连接工具:Xshell6(连接服务器)   和   Xftp6(文件传输)——ps.非必要

一、安装虚拟机

在windows系统中安装VMware14pro,直接下载安装,无需赘述

下载地址:https://www.vmware.com/cn.html

激活方式参考另一篇博文:https://blog.csdn.net/MDbabyface/article/details/82084346

ps:如有条件,请购买使用

 

二、安装linux操作系统

CentOS 是一个基于Red Hat Linux 提供的可自由使用源代码的企业级Linux发行版本。也可以选择其他Linux发行版。例如: Ubuntu、Fadora

1、下载centos7镜像文件

下载地址:https://www.centos.org/download/

2、安装centos7

2.1  创建虚拟机

         选择创建新的虚拟机——选择典型安装——选择centos7镜像获取位置——选择centos7系统安装位置——磁盘大小默认20G

点击完成即可完成系统安装

2.2 配置操作系统

         进入配置界面——选择语言中文——软件选择(最小化安装或者带图形界面)——网络与主机名自行配置——选择开始安装

安装完成之后打开虚拟机设置,网络适配器选择仅主机模式(也可选择其他模式,此处仅配置单机hadoop,选用仅主机模式)

ps:这里简单介绍一下三种网络模式

桥接模式:相当于在宿主机前端加入了一个虚拟交换器,宿主机和虚拟机共享这个虚拟交换器,虚拟机需要手动配置IP地址、子网掩码,而且需要和宿主机处于同一个网段,保证能与宿主机进行通信。虚拟机相当于一台独立主机。

NAT模式:此种模式下宿主机成为双网卡主机,同时参与现有 的宿主局域网和新建的虚拟局域网,虚拟局域网通过虚拟的NAT服务器,使用宿主机IP地址访问公网。

仅主机模式:此种模式下宿主机与上所以虚拟机可以相互通信,但是虚拟机和真实网络是被隔离开的。

3、修改主机名

把原先的主机名删去,写入新的主机名 hadoop,保存退出

修改主机名需要重启才能生效,可以通过临时修改使得主机名立即生效

查看当前主机名

表示修改成功

4、设置静态ip

查看当前网络状态:

第一个网卡lo是回路网卡,机器与自己通信的,

第二个ens33是与外部通信的网卡,可以看到IP地址,但默认情况下IP地址自动获取,因此需要手动修改成静态

输入指令:

打开ens33配置文件

将“BOOTPROTO=dhcp”改成“BOOTPROTO=static”(设置成静态)

将“ONBOOT=no”修改成“ONBOOT=yes”(设置开机启动网卡)

在下面写入:

IPADDR=192.168.80.128

NETMASK=255.255.255.0

因此本机网络设置为仅主机模式无法连接外网,所以仅设置IP地址和子网掩码

其他模式需要连接外网请自行设置网关和DNS。

重启网络即可完成设置

5、添加主机与ip映射

输入指令

在文件中写入一行

192.168.91.124  hadoop

:wq   保存退出

6、关闭防火墙

启动: systemctl start firewalld

关闭: systemctl stop firewalld

查看状态: systemctl status firewalld 

开机禁用  : systemctl disable firewalld

开机启用  : systemctl enable firewalld

输入指令    systemctl disable firewalld

若想立即成效,则输入关闭防火墙指令

systemctl stop firewalld

7、设置ssh免登陆

authorized_keys:存放远程免密登录的公钥,主要通过这个文件记录多台机器的公钥 
id_rsa : 生成的私钥文件 
id_rsa.pub : 生成的公钥文件 
know_hosts : 已知的主机公钥清单 

输入指令生成秘钥

enter几次之后完成秘钥生成

输入ls指令即可查看生成的秘钥文件

将公钥写入新的文件authorized_keys中

测试一下:ssh hadoop

显示last login并且无需输入密码则设置成功

三、安装与配置jdk

1、卸载当前openjdk

查看当前jdk版本

java -version

hadoop官网推荐使用sun公司的jdk版本,因此先卸载原先的jdk

yum -y remove java java-1.8.0-openjdk-headless.x86_64

yum -y remove java java-1.7.0-openjdk-headless.x86_64 

yum -y remove java java-1.8.0-openjdk

查看是否卸载完成

2、安装jdk

            将jdk安装包文件拷入到  usr/java 下

cd到usr/java 目录下

解压java安装包

tar -zxvf jdk1.8.0_181

3、配置环境变量

安装完成后需要配置一下环境变量,编辑/etc/profile文件:

vim /etc/profile

在文件尾部添加如下配置:

export JAVA_HOME=/usr/java/jdk1.8.0_131/
    export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar 
    export PATH=$PATH:$JAVA_HOME/bin

最后一步就是通过source命令重新加载/etc/profile文件,使得修改后的内容在当前shell窗口有效:

source /etc/profile

4、测试

查看当前jdk版本

jdk安装完成!

四、安装与配置hadoop

1、安装hadoop

将下载好的hadoop安装包拷入到  /usr/hadoop 文件夹中

cd 到/usr/java/ 目录下

tar -zxvf hadoop-2.8.4.tar.gz

解压完成

2、配置hadoop(修改五个配置文件)

进入到hadoop的配置文件目录中

/usr/hadoop/hadoop-2.8.4/etc/hadoop

2.1 配置 hadoop-env.sh

vi  hadoop-env.sh

将JAVA_HOME修改为jdk安装路径

2.2  配置core-site.xml

vi core-site.xml

 # 在<configuration>中添加配置

<configuration>

<!-- 指定HADOOP所使用的文件系统schema(URI),HDFS的老大(NameNode)的地址 -->

<property>

       <name>fs.defaultFS</name>

       <value>hdfs://hadoop:9000</value>

</property>

<!-- 指定hadoop运行时产生临时文件的存储目录 -->

<property>

       <name>hadoop.tmp.dir</name>

       <value>/usr/java/jdk1.8.0_181/tmp</value>

</property>

</configuration>

2.3 配置hdfs-site.xml

vi hdfs-site.xml

<configuration>

<!-- 指定HDFS副本的数量 -->

<property>

          <name>dfs.replication</name>

          <value>1</value>

</property>

</configuration>

2.4  配置  mapred-site.xml

将 mapred-site.xml.template复制一份并重命名为 mapred-site.xml

mv mapred-site.xml.template  mapred-site.xml

vi   mapred-site.xml

# 配置mapred-site.xml <configuration>

<!-- 指定mr运行在yarn上 -->

<property>

          <name>mapreduce.framework.name</name>

          <value>yarn</value>

</property>

</configuration>

2.5  配置yarn-site.xml

vi  yarn-site.xml

<configuration>

<!-- 指定YARN的老大(ResourceManager)的地址 -->

 <property>

      <name>yarn.resourcemanager.hostname</name>

       <value>hadoop</value>

</property>

<!-- reducer获取数据的方式 -->

<property>

          <name>yarn.nodemanager.aux-services</name>

          <value>mapreduce_shuffle</value>

</property>

</configuration>

保存退出,配置完成!

3、格式化hdfs

cd到bin目录下

./hdfs namenode -format

看见这一行提示即表示格式化成功

4、启动并测试hdfs

cd 到sbin目录下

启动  start-all.sh

start-all.sh

用jps指令查看当前启动的进程

看见下面几个即表示启动成功

在浏览器地址栏中输入 192.168.91.124:50070(IP地址可能不一样,端口是一样的)

登录成功!

 

 

 

 

 

 

 

 

 

 

 

 

版权声明:本文来源CSDN,感谢博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/MDbabyface/article/details/82555592
站方申明:本站部分内容来自社区用户分享,若涉及侵权,请联系站方删除。
  • 发表于 2020-03-07 10:42:52
  • 阅读 ( 1493 )
  • 分类:Linux

0 条评论

请先 登录 后评论

官方社群

GO教程

猜你喜欢