Hadoop 文档教程

Hadoop 是一个开源的分布式计算平台，用于存储和处理大规模数据集。本教程将为您介绍 Hadoop 的基本概念、安装配置以及常用操作。

Hadoop 简介

Hadoop 是由 Apache 软件基金会开发的一个开源项目，主要用于处理大规模数据集。它基于 Google 的 MapReduce 模型，将数据分散存储在多个节点上，通过分布式计算实现高效的数据处理。

安装与配置

环境准备

下载 Hadoop 代码：Hadoop 下载地址
安装 Java：Hadoop 需要 Java 运行环境，请确保已安装 Java 8 或更高版本。

配置步骤

解压 Hadoop 代码包
修改配置文件
- hadoop-env.sh：设置 Java_HOME 环境变量
- core-site.xml：配置 Hadoop 的工作目录等
- hdfs-site.xml：配置 HDFS 的存储路径等
- mapred-site.xml：配置 MapReduce 的作业执行参数等
- yarn-site.xml：配置 Yarn 的资源管理器等
启动 Hadoop 服务
- start-dfs.sh
- start-yarn.sh

常用操作

创建 HDFS 文件夹

hadoop fs -mkdir /user/hadoop

上传文件到 HDFS

hadoop fs -put /local/file.txt /user/hadoop/

下载 HDFS 文件

hadoop fs -get /user/hadoop/file.txt /local/

查看 HDFS 文件列表

hadoop fs -ls /user/hadoop/

执行 MapReduce 作业

hadoop jar /path/to/hadoop-mapreduce-examples.jar wordcount /user/hadoop/file.txt /user/hadoop/output

扩展阅读

更多关于 Hadoop 的内容，请参考以下链接：

Hadoop Architecture