🐾 什么是YARN?
YARN(Yet Another Resource Negotiator)是Hadoop 2.0引入的核心组件,负责集群资源的统一管理和调度。它让Hadoop能够更高效地运行多种数据处理应用,如MapReduce、Spark等。
🧩 YARN的核心概念
- ResourceManager(RM):全局资源协调者,分配集群资源
- NodeManager(NM):节点级别的资源和任务管理
- ApplicationMaster(AM):应用的主控进程,协调任务执行
- Container:资源隔离的执行单元,包含CPU、内存等配置
📊 YARN架构图
🌍 典型应用场景
- 大数据批处理:如ETL作业调度
- 实时流计算:与Spark Streaming结合使用
- 机器学习训练:支持分布式模型计算
- 多租户资源隔离:保障不同团队作业的资源公平性