大数据核心技术简介

最编程 2024-03-05 17:51:55

...

大数据核心技术概述

大数据基石三大论文：GFS（Hadoop HDFS）、BigTable（Apache HBase）、MapReduce（Hadoop MapReduce）。

搜索引擎的核心任务：一是数据采集，也就是网页的爬取；二是数据搜索，也就是索引的构建。数据采集离不开存储，索引的构建也需要大量计算，所以存储容器和计算能力贯穿搜索引擎的整个更迭过程。

Google在 2003/2004/2006 年相继发布谷歌分布式文件系统 GFS(被Hadoop HDFS借鉴)、大数据分布式计算框架 MapReduce（被Hadoop MapReduce借鉴）、大数据 NoSQL数据库 BigTable (被Apache Hbase借鉴)，这三篇论文奠定了大数据技术的基石。

大数据基石三大论文——GFS

GFS解决复杂工程问题的设计细节如下：

简化系统元信息：Master 中维持了两个重要的映射，分别是文件路径到逻辑数据块，逻辑块与其多副本之间的关系。
较大的数据块：选择了当时看来相当大的 64M 作为数据存储的基本单位，以此来减少元信息。
放宽的一致性：允许多副本间内容不一致来简化实现、提高性能，通过读校验来保证损坏数据对用户不可见。
高效副本同步：在多副本同步时分离控制流和数据流，利用网络拓扑提高同步效率。
租约分散压力：Master 通过租约将部分权力下放给某个 Chunkserver ，负责某个块的多副本间的读写控制。
追加并发优化：多客户端对同一文件进行并发追加，保证数据原子性及At Least Once的语义。
快速备份支持：使用 COW（Copy on Write）策略实现快照操作，并通过块的引用计数来进行写时拷贝。
逐节点锁控制：对于每个操作，需要沿着文件路径逐节点获取读锁，叶子节点获取读锁或者写锁，当然文件路径会进行前缀压缩。
异步垃圾回收：将数据删除与其他一些主节点的维护操作（损坏块清除，过期数据块移除）统一起来，成为一个定期过程。
版本号标记：帮助客户端识别过期数据。
数据块校验和：针对每 64KB 的小块打上 32 bit 的校验和。

大数据基石三大论文——BigTable

大数据基石三大论文——MapReduce

大数据技术体系——以Hadoop为例

Hadoop1.0

Hadoop2.0

Hadoop的优势

易用性（低成本）：Hadoop开源，软件使用成本低；Hadoop可以运行在廉价机器构成的大型集群上，硬件使用成本低。
高可靠性（高容错性）：Hadoop能够保存数据的多个副本，自动检测处理节点失败的情况，并能够自动重新分配失败的任务。
高效性：Hadoop能够在节点之间动态的移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
高扩展性：Hadoop在计算机集群上分配数据并完成计算任务，计算机集群中可以增设节点。

上一篇：常见的 docker 命令

下一篇： 2021-01-07 matlab 数值分析线性代数直接连接法追赶法 - 线性代数直接连接法追赶法求解线性方程组 Ax=b，其中 A 为三对角矩阵

大数据核心技术简介

大数据核心技术概述

大数据基石三大论文——GFS

大数据基石三大论文——BigTable

大数据基石三大论文——MapReduce

大数据技术体系——以Hadoop为例

Hadoop1.0

Hadoop2.0

Hadoop的优势

Hive 大数据任务调度和操作简介

5.DataX（DataX 简介、DataX 架构原理、DataX 部署、使用、将 MySQL 数据同步到 HDFS、将 HDFS 数据同步到 MySQL）（I）

基于 python-flask 技术的社区信息交流平台 [数据库 + 15000 文档] - 简介

数据库：MYSQL 参数 max_allowed_packet 简介

天池四月读书会｜数据分析与金融量化，6场直播，6位大佬，6个项目实践...

第 8 章人工智能大模型的安全与伦理 8.1 数据安全与隐私保护 8.1.2 数据脱敏

国内十大笔记本电脑品牌（值得购买的笔记本电脑简介）

安卓数据库 greenDAO 的配置和使用简介

大数据时代的电子商务风险控制简介||电子商务数据 API 接口

大数据核心技术简介

大数据核心技术概述

大数据基石三大论文——GFS

大数据基石三大论文——BigTable

大数据基石三大论文——MapReduce

大数据技术体系——以Hadoop为例

Hadoop1.0

Hadoop2.0

Hadoop的优势

Hive 大数据任务调度和操作简介

5.DataX（DataX 简介、DataX 架构原理、DataX 部署、使用、将 MySQL 数据同步到 HDFS、将 HDFS 数据同步到 MySQL）（I）

基于 python-flask 技术的社区信息交流平台 [数据库 + 15000 文档] - 简介

数据库：MYSQL 参数 max_allowed_packet 简介

天池四月读书会｜数据分析与金融量化，6场直播，6位大佬，6个项目实践...

第 8 章 人工智能大模型的安全与伦理 8.1 数据安全与隐私保护 8.1.2 数据脱敏

国内十大笔记本电脑品牌（值得购买的笔记本电脑简介）

安卓数据库 greenDAO 的配置和使用简介

大数据时代的电子商务风险控制简介||电子商务数据 API 接口

第 8 章人工智能大模型的安全与伦理 8.1 数据安全与隐私保护 8.1.2 数据脱敏