Ubuntu 20.04下搭建单机伪分布式Hadoop

飞熊 • 2023年8月4日下午5:54 • 后端笔记 • 阅读 190

JDK环境配置

Hadoop需要JDK环境安装并配置：

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html官网下载Linux的版本如jdk-8u231-linux-x64.tar.gz。

新建Java文件夹并解压JDK：tar -zxvf jdk-8u231-linux-x64.tar.gz

配置环境变量：

cd /etc
sudo vi profile

在文件末尾增加以下内容（具体路径依据环境而定）：

export JAVA_HOME=/Java/jdk1.8.0_11
export JRE_HOME=/Java/jdk1.8.0_11/jre
export PATH=${JAVA_HOME}/bin:$PATH

保存退出，在终端界面使用命令： source /etc/profile使配置文件生效。输入java -version查看是否配置成功

也可以选择安装openjdk:

#安装命令
sudo apt-get install openjdk-8-jre openjdk-8-jdk

#卸载命令
sudo apt-get remove openjdk-8-jdk
sudo apt-get remove openjdk-8-jre-headless

下载并配置Hadoop

新建Hadoop文件夹，解压文件tar -zxvf hadoop-2.10.1.tar.gz

hadoop需要ssh免密登陆等功能，因此先安装ssh。

 sudo apt-get install ssh

解压后修改hadoop-env.sh配置文件修改JAVA_HOME为本机的JDK路径。

配置Hadoop的环境变量：在/etc/profile追加Hadoop的环境变量。

修改core-site.xml配置文件


<configuration>
	<property>
        	<name>fs.defaultFS</name>
        	<value>hdfs://localhost:9000</value>
   	</property>
   	<property>
        	<name>hadoop.tmp.dir</name>
        	<value>/home/master/Hadoop/hadoop-2.10.1/etc/tmp</value>
   	</property>
   	
</configuration>

注意一定要设置hadoop.tem.dir不然下次启动会找不到namenode

修改hdfs-site.xml配置文件

<configuration>
	<property>
		<name>dfs.replication</name>
		<value>1</value>
	</property>
</configuration>

设置免密登陆

输入ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa出现下面内容：

再输入cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
接着输入chmod 0600 ~/.ssh/authorized_keys

检验免密登录是否成功：
使用命令：ssh localhost输入yes，出现下面情况就说明ok了。