Hadoop 的基本概念和架构
Hadoop的基本概念和架构
学习路线
- hadoop的基本概念和架构
- hadoop的安装和配置(单机安装)(集群安装)
- hadoop的HDFS文件系统
- hadoop的MapReduce计算框架
- hadoop的YARN资源管理器
- hadoop的高级特效,如HBase,Hive,Pig等
- hadoop的优化和调优
- hadoop的应用场景,如日志分析,数据挖掘等
简介
Hadoop是由Apache基金会所发布的开源的分布式计算框架,由Java语言编写,主要用于处理大规模的数据集的处理和分析。它基于Google的MapReduce算法和Google文件系统(GFS)的思想,提供了一个可靠,高效,可扩展的分布式计算平台。
Hadoop可以运行在廉价的硬件上,而且提供了高吞吐量,通过横向扩展的方式提高计算能力,因此被广泛应用与大数据处理领域。
三大核心
HDFS(存储系统)
存储系统:是指用于存储数据的系统,包括文件系统、数据库系统等。
在Hadoop中,HDFS是Hadoop分布式文件系统,它是Hadoop的核心组件之一。
HDFS采用了Master/Slave的架构,
- Master节点负责管理和调度
- NameNode作为Master节点,负责管理文件系统的命名空间和文件块的映射关系
- Slave节点负责执行具体的任务
- DataNode作为Slave节点,负责存储文件块的实际数据
HDFS的优点是具有高可靠性、高可扩展性、高吞吐量等特点,适合存储大规模数据集。
MapReduce(计算环节)
计算环节:是指对存储在存储系统中的数据进行计算的过程,包括数据的读取、处理和输出等。
在Hadoop中,MapReduce是Hadoop的计算框架,它采用了Map和Reduce两个阶段,其中Map阶段负责将输入数据切分成若干个小块,并对每个小块进行处理,输出中间结果;Reduce阶段负责将中间结果进行合并,得到最终的输出结果。
MapReduce是一种分布式计算模型,用于处理大规模数据集。它将数据分成多个小块,然后在多个计算节点上并行处理这些小块。MapReduce的工作原理如下:
-
Map阶段:将输入数据分成多个小块,然后在多个计算节点上并行处理这些小块。每个计算节点都会执行Map函数,将输入数据转换成键值对。
-
Shuffle阶段:将Map函数的输出结果按照键进行分组,然后将同一组的键值对发送到同一个Reduce节点上。
-
Reduce阶段:将同一组的键值对发送到同一个Reduce节点上,然后在该节点上执行Reduce函数,将同一组的键值对合并成一个结果。
-
输出结果:将所有Reduce节点的输出结果合并成一个最终结果。
MapReduce的优点是具有高可靠性、高可扩展性、高并发性等特点,适合处理大规模数据集。
YARN(资源分配)
资源分配:是指将计算任务分配给集群中的各个节点进行处理的过程,包括任务调度、资源管理等。
在Hadoop中,YARN(Yet Another Resource Negotiator)是Hadoop的资源管理系统,它负责集群中各个节点的资源管理和任务调度。
YARN采用了Master/Slave的架构,其中ResourceManager作为Master节点,负责管理集群中的资源,NodeManager作为Slave节点,负责管理单个节点的资源。ResourceManager负责对各个NodeManager上的资源进行统一管理和任务调度。
YARN的基本结构包含ResourceManager、NodeManager、ApplicationMaster三个组件
- ResourceManager:是YARN的核心组件,负责资源的管理和分配。主要功能:
- 接收客户端提交的应用程序,并为其分配ApplicationMaster
- 监控集群中的资源使用情况,为ApplicationMaster分配资源
- 处理NodeManager的心跳信息,更新集群资源使用情况
- 处理ApplicationMaster的请求,如为其分配资源、杀死应用程序等
- NodeManager:是YARN的节点管理器,负责节点的管理和任务的执行。主要功能
- 监控节点上的资源使用情况,向ResourceManager发送心跳信息
- 接收ApplicationMaster的请求,为其分配容器
- 启动容器中的任务,并监控任务的执行情况
- 向ApplicationMaster发送任务执行状态
- ApplicationMaster:是YARN的应用程序管理器,负责应用程序的管理和调度。主要功能
- 向ResourceManager提交应用程序,并为其分配资源
- 向NodeManager申请容器,并为容器分配任务
- 监控任务的执行情况,并向NodeManager发送任务执行状态
- 处理任务执行失败的情况,如重新分配任务、杀死任务等
YARN的优点是具有高可靠性、高可扩展性、高灵活性等特点,适合管理大规模集群的资源。
举例:
假设有一个大型电商网站,需要对用户的购物行为进行分析,以便提高销售额。
首先,需要将用户的购物数据存储到HDFS中,以便后续的计算。
然后,使用MapReduce计算框架对购物数据进行处理,得到用户的购物行为特征。
最后,使用YARN资源管理系统将计算任务分配给集群中的各个节点进行处理,以提高计算效率。
总结:
HDFS(分布式文件存储系统):解决大规模数据集
YARN(资源管理系统):将计算任务分配给集群中的各个节点进行处理
MapReduce(分布式计算框架):对存储在HDFS中的数据进行计算
下一篇: Hadoop 架构详解
推荐阅读
-
BSN 开放联盟链之旅 - 文昌链的技术、架构和应用介绍
-
ETCD 实现了高可用性架构,发生故障时主设备和备用设备的切换仅需几秒钟
-
Plankton Embedded:用于飞思卡尔 Kinetis 开发板的 OpenSDA 调试器(第 1 部分)--背景和架构
-
35 岁实现财务*,腾讯程序员手握2300万提前退休?-1000万房产、1000万腾讯股票、加上300万的现金,一共2300万的财产。有网友算了一笔账,假设1000万的房产用于自住,剩下1300万资产按照平均税后20-50万不等进行计算,大约花上26-60年左右的时间才能赚到这笔钱。也就是说,普通人可能奋斗一辈子,才能赚到这笔钱。在很多人还在为中年危机而惶惶不可终日的时候,有的人的35岁,就已经安全着陆,试问哪个打工人不羡慕?但问题是有这样财富积累必然有像样的实力做靠山。没有人可以不劳而获。 看到这里,肯定有人说,那么对于普通人来说,卷可能真就成了唯一的出路。但是卷也有轻松的卷,“偷懒”的卷法,对于程序员而言,刨除掉一时无法改掉的开会传统占用的大部分时间,如何把有限的时间和精力放在真正重要的架构设计、需求设计上,而不是重复的造*,编码、改bug、手动测试。因此在科技改变生活的今天,学会使用AI工具成为程序员们的必备技能。 以全栈式全自动的软件开发工具飞算SoFlu软件机器人为例,作为全球首款面向微服务架构设计和最佳实践的软件机器人,SoFlu软件机器人改变了原来手工编码的作业模式,通过可视化拖拽方式以及参数配置就能实现等同于编写复杂代码的业务逻辑,在设计业务逻辑时就完成了微服务应用开发,做到“业务即图,图即代码”,实现“软件开发,十倍提效”。 而作为飞算SoFlu软件机器人的一个重要组成部分,FuncGPT(慧函数)支持所有类型函数创建。通过自然语言描述Java函数需求,实时生成高质量、高可读性的Java函数代码。生成代码可直接复制到IDEA,或一键导入Java全自动开发工具函数库。 FuncGPT(慧函数)具有五大核心能力: ● 自然语言:通过自然语言即可生成函数,降低软件开发门槛。 ● 秒级函数开发:全自动秒级开发函数,秒级完成,效率千倍提升。 ● 一站式函数开发应用:函数生成即可直接应用,效率、安全有保障。 ● 质量可靠:生成的函数代码符合业界规范、具备良好的可读性,符合最优解。 ● 灵活生成:可以根据开发人员的具体需求生成并支持调整和修改。 以“将文件流转换为File对象”这个需求为例,以下是FuncGPT(慧函数)秒级生成的代码: / 类名:FileConverter // 函数名:convertStreamToFile // 函数功能:将文件流转换为File对象 // POM依赖包:无 import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; public class FileConverter { /** * 将文件流转换为File对象 * @param inputStream 文件流 * @param filePath 文件路径 * @param fileName 文件名 * @return 转换后的File对象 * @throws IOException 如果发生I/O异常 */ public static File convertStreamToFile(InputStream inputStream, String filePath, String fileName) throws IOException { File file = new File(filePath + File.separator + fileName); // 创建File对象 try (FileOutputStream outputStream = new FileOutputStream(file)) { // 创建文件输出流 byte buffer = new byte[1024]; int bytesRead; while ((bytesRead = inputStream.read(buffer)) != -1) { // 从文件流读取数据并写入文件 outputStream.write(buffer, 0, bytesRead); } } return file; // 返回转换后的File对象 } } // 函数示例 // 将文件流转换为File对象示例 // 入参:inputStream,文件流 // 入参:filePath,文件路径 // 入参:fileName,文件名 // 出参:file,转换后的File对象 // 调用示例: // InputStream inputStream = new FileInputStream("example.txt"); // String filePath = "C:\\Users\\User\\Documents"; // String fileName = "example.txt"; // File file = FileConverter.convertStreamToFile(inputStream, filePath, fileName); // System.out.println(file.getAbsolutePath); // 输出结果:例如,将文件流转换为File对象后,文件的绝对路径为:C:\Users\User\Documents\example.txt // 则输出结果为:C:\Users\User\Documents\example.txt 通过分析,不难发现以上代码:
-
程序员和年龄四十岁的总开发员,三十五岁的首席架构师,三十岁的基地负责人
-
Mahout-Collaborative-Filtering-CF-Recommendation 算法的基本概念和代码示例
-
K8s:Prometheus 服务架构和基本抓取数据服务的部署
-
ES (I):简要介绍 ES 的基本概念和原理
-
Hadoop 运行模式 (II)、SSH 未加密登录配置、生成公钥和私钥、群集配置、群集部署规划、默认配置文件、核心配置文件、HDFS 配置文件、YARN 配置文件、MapReduce 配置文件、分发配置的
-
基于云的 SDN 架构 sdn 和云计算