无论是科研机构、金融机构还是互联网企业,Hadoop都扮演着举足轻重的角色
本文将详细介绍如何在Linux系统上安装和配置Hadoop,帮助您快速搭建起大数据处理的基石
一、准备工作 在动手之前,确保您已经具备以下条件: 1.Linux系统:Hadoop支持多种Linux发行版,如Ubuntu、CentOS、Debian等
本文将以Ubuntu Server 20.04 LTS为例进行说明
2.Java环境:Hadoop依赖于Java运行,因此需要先安装Java Development Kit(JDK)
推荐使用OpenJDK 11或以上版本
3.SSH服务:Hadoop节点间需要通过SSH进行通信,确保SSH服务已安装并配置好无密码登录(使用SSH密钥)
4.网络配置:确保所有Hadoop节点之间网络互通,能够相互访问
二、安装Java环境 1.更新系统包索引: bash sudo apt update 2.安装OpenJDK 11: bash sudo apt install openjdk-11-jdk 3.验证安装: bash java -version javac -version 确保输出的版本信息中包含“11”字样,表示安装成功
三、安装SSH服务并配置无密码登录 1.安装SSH服务(通常默认已安装): bash sudo apt install openssh-server 2.启动SSH服务: bash sudo systemctl start ssh sudo systemctl enable ssh 3.生成SSH密钥对(如果未生成): bash ssh-keygen -t rsa -b 4096 -C your_email@example.com 按提示操作,默认路径下生成`~/.ssh/id_rsa`(私钥)和`~/.ssh/id_rsa.pub`(公钥)
4.将公钥复制到本地用户的`~/.ssh/authorized_keys`文件中: bash cat ~/.ssh/id_rsa.pub ] ~/.ssh/authorized_keys chmod 600 ~/.ssh/authorized_keys 5.测试无密码登录: bash ssh localhost 如果无需输入密码即可登录,说明配置成功
四、下载并安装Hadoop 1.下载Hadoop: 访问【Apache Hadoop官方下载页面】(https://hadoop.apache.org/releases.html),下载最新的稳定版本,如`hadoop-3.3.1.tar.gz`
2.解压Hadoop: bash wget https://downloads.apache.org/hadoop/common/hadoop-3.3.1/hadoop-3.3.1.tar.gz tar -xzf hadoop-3.3.1.tar.gz sudo mv hadoop-3.3.1 /usr/local/hadoop 3.设置环境变量: 编辑`~/.bashrc`或`/etc/profile`,添加以下行: bash export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin 然后执行`source ~/.bashrc`或重新登录以使更改生效
五、配置Hadoop Hadoop的配置文件主要位于`$HADOOP_HOME/etc/hadoop/`目录下,以下是关键配置文件的修改说明: 1.hadoop-env.sh: 设置Java路径: bash exportJAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 2.core-sit