📌 什么是 Hadoop?

Hadoop 是一个开源的分布式计算框架,能够处理大规模数据集。其核心组件包括:

  • HDFS(Hadoop Distributed File System) 📁
  • MapReduce 🧠
  • YARN(Yet Another Resource Negotiator) 🧩

📚 想更深入了解 Hadoop 生态系统?点击 Hadoop 生态系统详解 查看更多。

🧰 步骤一:环境准备

  1. Java 环境
    安装 JDK 1.8 或更高版本,确保版本兼容性
    Java_Environment
  2. 下载 Hadoop
    Apache Hadoop 官网 获取最新稳定版
  3. 配置环境变量
    设置 HADOOP_HOMEPATH 变量,添加到系统环境

🧱 步骤二:集群搭建

1. 单机模式(本地测试)

# 启动 Hadoop 单机模式
$ hadoop-daemon.sh start namenode
$ hadoop-daemon.sh start datanode

Hadoop_Single_Node

2. 分布式模式(多节点集群)

  • 配置 core-site.xmlhdfs-site.xml
  • 格式化 HDFS 系统
    $ hdfs namenode -format
    
  • 启动集群服务
    $ start-dfs.sh
    $ start-yarn.sh
    

📈 步骤三:验证安装

  1. 访问 Hadoop Web 界面
  2. 运行示例程序
    $ hadoop jar hadoop-mapreduce-examples-3.3.6.jar pi 10 100
    
    Hadoop_Example_Running

🧠 常见问题解答

  • Q: Hadoop 需要多少内存?
    A: 建议至少 4GB,生产环境需根据节点数量调整
  • Q: 如何查看 HDFS 文件?
    A: 使用 hdfs dfs -ls / 命令或通过 Web 界面

🛠️ 遇到安装问题?点击 Hadoop 安装调试指南 获取详细帮助。

🌐 进阶学习

Hadoop_Community

加入 Hadoop 社区,获取最新资讯与技术支持!