欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

大数据技术原理与应用》第 3 版课后简答题

最编程 2024-05-25 19:50:08
...

课后简答题

答案网址,对着看

大数据技术原理与应用第三版答案合集-百度文库 (baidu.com)

第一章 大数据概述

1.试述信息技术发展史上的3次信息化浪潮及其具体内容。

2.试述数据产生方式经历的几个阶段。

3.试述大数据的4个基本特征。

4.试述大数据时代的“数据爆炸”特性。

5.科学研究经历了哪4个阶段?

6.试述大数据对思维方式的重要影响。

7.大数据决策与传统的基于数据仓库的决策有什么区别?

8.举例说明大数据的具体应用。

9.举例说明大数据的关键技术。

10.大数据产业包含哪些层面?

11.给出以下术语的定义:云计算、物联网。

12.详细阐述大数据、云计算和物联网三者之间的区别与联系。

第二章 大数据处理架构Hadoop

1.试述Hadoop和谷歌的MapReduce、GFS等技术之间的关系。

2.试述Hadoop具有哪些特性。

3.试述Hadoop在各个领域的应用情况。

4.试述Hadoop生态系统以及每个部分的具体功能。

5.配置Hadoop时,Java 的路径JAVA_ HOME是在哪- - 个配置文件中进行设置的?

6.所有节点的HDFS路径是通过fs.default.name来设置的,请问它是在哪个配置文件中设置的?

7.试列举单机模式和伪分布模式的异同点。

8.Hadoop伪分布式运行启动后所具有的进程都有哪些?

9.如果具备集群实验条件,请尝试按照Hadoop官方文档搭建全分布式的Hadoop集群环境。

第三章 分布式文件系统HDFS

  1. 试述分布式文件系统设计的需求。

2.分布式文件系统是如何实现较高水平扩展的?

3.试述HDFS中的块和普通文件系统中的块的区别。

4.试述HDFS中的名称节点和数据节点的具体功能。

5.在分布式文件系统中,中心节点的设计至关重要,请阐述HDFS是如何减轻中心节点的负担的。

  1. HDFS 只设置唯一-- 个名称节点, 在简化系统设计的同时也带来了一些明显的局限性,请阐述局限性具体表现在哪些方面。

7.试述HDFS的冗余数据保存策略。

8.数据复制主要在数据写人和数据恢复的时候发生,HDFS数据复制使用流水线复制的策略,请阐述该策略的细节。

9.试述HDFS是如何探测错误发生以及如何进行恢复的。

10.请阐述HDFS在不发生故障的情况下读文件的过程。

11.请阐述HDFS在不发生故障的情况下写文件的过程。

第四章 分布式数据库HBase

  1. 试述在Hadoop体系架构中HBase与其他组成部分的相互关系。
  2. 请阐述HBase和BigTable的底层技术的对应关系。
  3. 请阐述HBase和传统关系数据库的区别。
  4. HBase 支持哪些类型的访问接口?
  5. 请以实例说明HBase数据模型。
  6. 分别解释HBase中行键、列键和时间戳的概念。
  7. 请列举实例来阐述HBase的概念视图和物理视图的区别。
  8. 试述HBase各功能组件及其作用。
  9. 请阐述HBase的数据分区机制。
  10. HBase 中的分区是如何定位的?
  11. 试述HBase的三层结构中各层次的名称和作用。
  12. 请阐述在HBase三层结构下,客户端是如何访问到数据的。
  13. 试述HBase系统基本架构及其每个组成部分的作用。
  14. 请阐述Region服务器向HDFS中读写数据的基本原理。
  15. 试述HStore的工作原理。
  16. 试述HLog的工作原理。
  17. 在HBase中,每个Region服务器维护- 一个HLog, 而不是每个Region都单独维护-一个HLog。 请说明这种做法的优点和缺点。

第七章 MapReduce

  1. 试述MapReduce和Hadoop的关系。
  2. MapReduce 是处理大数据的有工具,但不是每个任务都可以使用MapReduce来进行处理的。试述适合用MapReduce来处理的任务或者数据集需满足怎样的要求。
  3. MapReduce 计算模型的核心是Map函数和Reduce兩数,试述这两个函数各自的输入、输出以及处理过程。
  4. 试述MapReduce的工作流程(需包括提交任务、Map、Shufle. Reduce 的过程)。
  5. Shuffle 过程是MapReduce工作流程的核心,也被称为奇迹发生的地方,试分析Shuffle过程的作用。
  6. 分别描述Map端和Reduce端的Shuffle过程(需包括溢写、排序、归并、“领取"的过程)。
  7. MapReduce 中有这样-一个原则:移动计算比移动数据更经济。试述什么是本地计算,并分析为何要采用本地计算。
  8. 试说明一个MapReduce程序在运行期间所启动的Map任务数量和Reduce任务数量各是由什么因素决定的。
  9. 是否所有的MapReduce程序都需要经过Map和Reduce这两个过程?如果不是,请举例说明。
  10. 试分析为何采用Combiner 可以减少数据传输量。是否所有的MapReduce程序都可以采用Combiner?为什么?
  11. MapReduce程序的输人文件、输出文件都存储在HDFS中,而在Map任务完成时得到的中间结果存储在本地磁盘中。
  12. 试分析中间结果存储在本地磁盘而不是HDFS上有何优缺点。
  13. 早期的HDFS,其默认块( Block)大小为64 MB,而较新的版本默认为128 MB,采用较大的块具有什么影响和优缺点?
  14. 试画出使用MapReduce来对英语句子“Whatever is worth doing is worth doing well"进行单词统计的过程。.在基于MapReduce的单词统计中, MapReduce如何保证相同的单词数据会划分到同一个Reducer.上进行处理以保证结果的正确性?
  15. MapReduce 可用于对数据进行排序,- - 种想法是利用MapReduce的自动排序功能,即默认情况下,Reduce任务的输出结果是有序的,如果只使用一- 个Reducer来对数据进行处理.输出,则结果就是有序的了。但这样的排序过程无法充分利用MapReduce的分布式优点。试设计一个基于MapReduce的排序算法,假设数据均位于[1, 100], Reducer 数量为4,正序输出结果或逆序输出结果均可。试简要描述该算法(可使用分区、合并过程)。
  16. 试设计一个基于MapReduce的算法,求出数据集中的最大值。假设Reducer大于1,试简要描述该算法(可使用分区、合并过程)。
  17. 对于稀疏矩阵的乘法,试思考出与正文中矩阵乘法所采用的不同的MapReduce策略,写出相应的Map函数和Reduce函数。
  18. 当输人为由许多整数构成的文件、输出为最大整数时,试设计MapReduce算法实现上述功能,并写出Map丽数和Reduce函数。
  19. 试述实现矩阵-向量乘法与矩阵乘法采用不同MapReduce策略的原因。
  20. 为非方阵矩阵(即行数与列数不等的矩阵)的乘法运算设计- -般化的MapReduce算法,并写出Map函数和Reduce函数。

第十四章 基于Hadoop的数据仓库Hive

1.试述在Hadoop生态系统中Hive与其他组件之间的相互关系。

2.请简述Hive与传统数据库的区别。

3.请简述Hive的几种访问方式。

4.请分别对Hive的几个主要组成模块进行简要介绍。

5.请简述向Hive中输人- - 条查询的具体执行过程。

6.请简述Hive HA原理。

7.请简述Impalad进程的主要作用。

8.请比较Hive与Impala的异同点。

9.请简述State Store的作用。

10.请简述Impala执行- - 条查询的具体过程。

11.请列举Hive中的列所支持的3种集合数据类型。

12.请列举几个Hive的常用操作及基本语法。

原文地址:https://www.cnblogs.com/ljer/p/17114391.html

推荐阅读