📌 什么是 Hadoop?
Hadoop 是一个开源的分布式计算框架,能够处理大规模数据集。其核心组件包括:
- HDFS(Hadoop Distributed File System) 📁
- MapReduce 🧠
- YARN(Yet Another Resource Negotiator) 🧩
📚 想更深入了解 Hadoop 生态系统?点击 Hadoop 生态系统详解 查看更多。
🧰 步骤一:环境准备
- Java 环境
安装 JDK 1.8 或更高版本,确保版本兼容性Java_Environment - 下载 Hadoop
从 Apache Hadoop 官网 获取最新稳定版 - 配置环境变量
设置HADOOP_HOME
和PATH
变量,添加到系统环境
🧱 步骤二:集群搭建
1. 单机模式(本地测试)
# 启动 Hadoop 单机模式
$ hadoop-daemon.sh start namenode
$ hadoop-daemon.sh start datanode
Hadoop_Single_Node
2. 分布式模式(多节点集群)
- 配置
core-site.xml
和hdfs-site.xml
- 格式化 HDFS 系统
$ hdfs namenode -format
- 启动集群服务
$ start-dfs.sh $ start-yarn.sh
📈 步骤三:验证安装
- 访问 Hadoop Web 界面
- NameNode: http://localhost:9870
- ResourceManager: http://localhost:8088
- 运行示例程序
$ hadoop jar hadoop-mapreduce-examples-3.3.6.jar pi 10 100
Hadoop_Example_Running
🧠 常见问题解答
- Q: Hadoop 需要多少内存?
A: 建议至少 4GB,生产环境需根据节点数量调整 - Q: 如何查看 HDFS 文件?
A: 使用hdfs dfs -ls /
命令或通过 Web 界面
🛠️ 遇到安装问题?点击 Hadoop 安装调试指南 获取详细帮助。
🌐 进阶学习
Hadoop_Community
加入 Hadoop 社区,获取最新资讯与技术支持!