Hadoop 的基本概念和架构

最编程 2024-04-21 13:41:20

...

Hadoop的基本概念和架构

学习路线

hadoop的基本概念和架构
hadoop的安装和配置（单机安装）（集群安装）
hadoop的HDFS文件系统
hadoop的MapReduce计算框架
hadoop的YARN资源管理器
hadoop的高级特效，如HBase，Hive，Pig等
hadoop的优化和调优
hadoop的应用场景，如日志分析，数据挖掘等

简介

Hadoop是由Apache基金会所发布的开源的分布式计算框架，由Java语言编写，主要用于处理大规模的数据集的处理和分析。它基于Google的MapReduce算法和Google文件系统（GFS）的思想，提供了一个可靠，高效，可扩展的分布式计算平台。

Hadoop可以运行在廉价的硬件上，而且提供了高吞吐量，通过横向扩展的方式提高计算能力，因此被广泛应用与大数据处理领域。

三大核心

HDFS（存储系统）

存储系统：是指用于存储数据的系统，包括文件系统、数据库系统等。

在Hadoop中，HDFS是Hadoop分布式文件系统，它是Hadoop的核心组件之一。

HDFS采用了Master/Slave的架构，

Master节点负责管理和调度
- NameNode作为Master节点，负责管理文件系统的命名空间和文件块的映射关系
Slave节点负责执行具体的任务
- DataNode作为Slave节点，负责存储文件块的实际数据

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KOz69t8D-1684315460787)(E:\Java笔记\大数据\Hadoop\Hadoop.assets\image-20230517155828221.png)]$

HDFS的优点是具有高可靠性、高可扩展性、高吞吐量等特点，适合存储大规模数据集。

MapReduce（计算环节）

计算环节：是指对存储在存储系统中的数据进行计算的过程，包括数据的读取、处理和输出等。

在Hadoop中，MapReduce是Hadoop的计算框架，它采用了Map和Reduce两个阶段，其中Map阶段负责将输入数据切分成若干个小块，并对每个小块进行处理，输出中间结果；Reduce阶段负责将中间结果进行合并，得到最终的输出结果。

MapReduce是一种分布式计算模型，用于处理大规模数据集。它将数据分成多个小块，然后在多个计算节点上并行处理这些小块。MapReduce的工作原理如下：

Map阶段：将输入数据分成多个小块，然后在多个计算节点上并行处理这些小块。每个计算节点都会执行Map函数，将输入数据转换成键值对。
Shuffle阶段：将Map函数的输出结果按照键进行分组，然后将同一组的键值对发送到同一个Reduce节点上。
Reduce阶段：将同一组的键值对发送到同一个Reduce节点上，然后在该节点上执行Reduce函数，将同一组的键值对合并成一个结果。
输出结果：将所有Reduce节点的输出结果合并成一个最终结果。

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bRvRevhB-1684315460788)(E:\Java笔记\大数据\Hadoop\Hadoop.assets\image-20230517153953473.png)]$

MapReduce的优点是具有高可靠性、高可扩展性、高并发性等特点，适合处理大规模数据集。

YARN（资源分配）

资源分配：是指将计算任务分配给集群中的各个节点进行处理的过程，包括任务调度、资源管理等。

在Hadoop中，YARN（Yet Another Resource Negotiator）是Hadoop的资源管理系统，它负责集群中各个节点的资源管理和任务调度。

YARN采用了Master/Slave的架构，其中ResourceManager作为Master节点，负责管理集群中的资源，NodeManager作为Slave节点，负责管理单个节点的资源。ResourceManager负责对各个NodeManager上的资源进行统一管理和任务调度。

YARN的基本结构包含ResourceManager、NodeManager、ApplicationMaster三个组件

ResourceManager：是YARN的核心组件，负责资源的管理和分配。主要功能：
- 接收客户端提交的应用程序，并为其分配ApplicationMaster
- 监控集群中的资源使用情况，为ApplicationMaster分配资源
- 处理NodeManager的心跳信息，更新集群资源使用情况
- 处理ApplicationMaster的请求，如为其分配资源、杀死应用程序等
NodeManager：是YARN的节点管理器，负责节点的管理和任务的执行。主要功能
- 监控节点上的资源使用情况，向ResourceManager发送心跳信息
- 接收ApplicationMaster的请求，为其分配容器
- 启动容器中的任务，并监控任务的执行情况
- 向ApplicationMaster发送任务执行状态
ApplicationMaster：是YARN的应用程序管理器，负责应用程序的管理和调度。主要功能
- 向ResourceManager提交应用程序，并为其分配资源
- 向NodeManager申请容器，并为容器分配任务
- 监控任务的执行情况，并向NodeManager发送任务执行状态
- 处理任务执行失败的情况，如重新分配任务、杀死任务等

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rQNu5NX8-1684315460788)(E:\Java笔记\大数据\Hadoop\Hadoop.assets\image-20230517162229435.png)]$

YARN的优点是具有高可靠性、高可扩展性、高灵活性等特点，适合管理大规模集群的资源。

举例：

假设有一个大型电商网站，需要对用户的购物行为进行分析，以便提高销售额。

首先，需要将用户的购物数据存储到HDFS中，以便后续的计算。

然后，使用MapReduce计算框架对购物数据进行处理，得到用户的购物行为特征。

最后，使用YARN资源管理系统将计算任务分配给集群中的各个节点进行处理，以提高计算效率。

总结：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aqdPwTsa-1684315460789)(E:\Java笔记\大数据\Hadoop\Hadoop.assets\image-20230515213434408.png)]$

HDFS（分布式文件存储系统）：解决大规模数据集

YARN（资源管理系统）：将计算任务分配给集群中的各个节点进行处理

MapReduce（分布式计算框架）：对存储在HDFS中的数据进行计算

上一篇： Hadoop (I) - Hadoop 框架简介

下一篇： Hadoop 架构详解

Hadoop 的基本概念和架构