大数据核心技术简介
最编程
2024-03-05 17:51:55
...
大数据核心技术概述
大数据基石三大论文:GFS(Hadoop HDFS)、BigTable(Apache HBase)、MapReduce(Hadoop MapReduce)。
搜索引擎的核心任务:一是数据采集,也就是网页的爬取;二是数据搜索,也就是索引的构建。 数据采集离不开存储,索引的构建也需要大量计算,所以存储容器和计算能力贯穿搜索引擎的整个更迭过程。
Google在 2003/2004/2006 年相继发布谷歌分布式文件系统 GFS(被Hadoop HDFS借鉴)、大数据分布式计算框架 MapReduce(被Hadoop MapReduce借鉴)、大数据 NoSQL数据库 BigTable (被Apache Hbase借鉴),这三篇论文奠定了大数据技术的基石。
大数据基石三大论文——GFS
GFS解决复杂工程问题的设计细节如下:
- 简化系统元信息:Master 中维持了两个重要的映射,分别是文件路径到逻辑数据块,逻辑块与其多副本之间的关系。
- 较大的数据块:选择了当时看来相当大的 64M 作为数据存储的基本单位,以此来减少元信息。
- 放宽的一致性:允许多副本间内容不一致来简化实现、提高性能,通过读校验来保证损坏数据对用户不可见。
- 高效副本同步:在多副本同步时分离控制流和数据流,利用网络拓扑提高同步效率。
- 租约分散压力:Master 通过租约将部分权力下放给某个 Chunkserver ,负责某个块的多副本间的读写控制。
- 追加并发优化:多客户端对同一文件进行并发追加,保证数据原子性及At Least Once的语义。
- 快速备份支持:使用 COW(Copy on Write) 策略实现快照操作,并通过块的引用计数来进行写时拷贝。
- 逐节点锁控制:对于每个操作,需要沿着文件路径逐节点获取读锁,叶子节点获取读锁或者写锁,当然文件路径会进行前缀压缩。
- 异步垃圾回收:将数据删除与其他一些主节点的维护操作(损坏块清除,过期数据块移除)统一起来,成为一个定期过程。
- 版本号标记:帮助客户端识别过期数据。
- 数据块校验和:针对每 64KB 的小块打上 32 bit 的校验和。
大数据基石三大论文——BigTable
大数据基石三大论文——MapReduce
大数据技术体系——以Hadoop为例
Hadoop1.0
Hadoop2.0
Hadoop的优势
- 易用性(低成本):Hadoop开源,软件使用成本低;Hadoop可以运行在廉价机器构成的大型集群上,硬件使用成本低。
- 高可靠性(高容错性):Hadoop能够保存数据的多个副本,自动检测处理节点失败的情况,并能够自动重新分配失败的任务。
- 高效性:Hadoop能够在节点之间动态的移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
- 高扩展性:Hadoop在计算机集群上分配数据并完成计算任务,计算机集群中可以增设节点。
推荐阅读
-
Hive 大数据任务调度和操作简介
-
5.DataX(DataX 简介、DataX 架构原理、DataX 部署、使用、将 MySQL 数据同步到 HDFS、将 HDFS 数据同步到 MySQL)(I)
-
35 岁实现财务*,腾讯程序员手握2300万提前退休?-1000万房产、1000万腾讯股票、加上300万的现金,一共2300万的财产。有网友算了一笔账,假设1000万的房产用于自住,剩下1300万资产按照平均税后20-50万不等进行计算,大约花上26-60年左右的时间才能赚到这笔钱。也就是说,普通人可能奋斗一辈子,才能赚到这笔钱。在很多人还在为中年危机而惶惶不可终日的时候,有的人的35岁,就已经安全着陆,试问哪个打工人不羡慕?但问题是有这样财富积累必然有像样的实力做靠山。没有人可以不劳而获。 看到这里,肯定有人说,那么对于普通人来说,卷可能真就成了唯一的出路。但是卷也有轻松的卷,“偷懒”的卷法,对于程序员而言,刨除掉一时无法改掉的开会传统占用的大部分时间,如何把有限的时间和精力放在真正重要的架构设计、需求设计上,而不是重复的造*,编码、改bug、手动测试。因此在科技改变生活的今天,学会使用AI工具成为程序员们的必备技能。 以全栈式全自动的软件开发工具飞算SoFlu软件机器人为例,作为全球首款面向微服务架构设计和最佳实践的软件机器人,SoFlu软件机器人改变了原来手工编码的作业模式,通过可视化拖拽方式以及参数配置就能实现等同于编写复杂代码的业务逻辑,在设计业务逻辑时就完成了微服务应用开发,做到“业务即图,图即代码”,实现“软件开发,十倍提效”。 而作为飞算SoFlu软件机器人的一个重要组成部分,FuncGPT(慧函数)支持所有类型函数创建。通过自然语言描述Java函数需求,实时生成高质量、高可读性的Java函数代码。生成代码可直接复制到IDEA,或一键导入Java全自动开发工具函数库。 FuncGPT(慧函数)具有五大核心能力: ● 自然语言:通过自然语言即可生成函数,降低软件开发门槛。 ● 秒级函数开发:全自动秒级开发函数,秒级完成,效率千倍提升。 ● 一站式函数开发应用:函数生成即可直接应用,效率、安全有保障。 ● 质量可靠:生成的函数代码符合业界规范、具备良好的可读性,符合最优解。 ● 灵活生成:可以根据开发人员的具体需求生成并支持调整和修改。 以“将文件流转换为File对象”这个需求为例,以下是FuncGPT(慧函数)秒级生成的代码: / 类名:FileConverter // 函数名:convertStreamToFile // 函数功能:将文件流转换为File对象 // POM依赖包:无 import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; public class FileConverter { /** * 将文件流转换为File对象 * @param inputStream 文件流 * @param filePath 文件路径 * @param fileName 文件名 * @return 转换后的File对象 * @throws IOException 如果发生I/O异常 */ public static File convertStreamToFile(InputStream inputStream, String filePath, String fileName) throws IOException { File file = new File(filePath + File.separator + fileName); // 创建File对象 try (FileOutputStream outputStream = new FileOutputStream(file)) { // 创建文件输出流 byte buffer = new byte[1024]; int bytesRead; while ((bytesRead = inputStream.read(buffer)) != -1) { // 从文件流读取数据并写入文件 outputStream.write(buffer, 0, bytesRead); } } return file; // 返回转换后的File对象 } } // 函数示例 // 将文件流转换为File对象示例 // 入参:inputStream,文件流 // 入参:filePath,文件路径 // 入参:fileName,文件名 // 出参:file,转换后的File对象 // 调用示例: // InputStream inputStream = new FileInputStream("example.txt"); // String filePath = "C:\\Users\\User\\Documents"; // String fileName = "example.txt"; // File file = FileConverter.convertStreamToFile(inputStream, filePath, fileName); // System.out.println(file.getAbsolutePath); // 输出结果:例如,将文件流转换为File对象后,文件的绝对路径为:C:\Users\User\Documents\example.txt // 则输出结果为:C:\Users\User\Documents\example.txt 通过分析,不难发现以上代码:
-
基于 python-flask 技术的社区信息交流平台 [数据库 + 15000 文档] - 简介
-
数据库:MYSQL 参数 max_allowed_packet 简介
-
天池四月读书会|数据分析与金融量化,6场直播,6位大佬,6个项目实践...
-
第 8 章 人工智能大模型的安全与伦理 8.1 数据安全与隐私保护 8.1.2 数据脱敏
-
国内十大笔记本电脑品牌(值得购买的笔记本电脑简介)
-
安卓数据库 greenDAO 的配置和使用简介
-
大数据时代的电子商务风险控制简介||电子商务数据 API 接口