大数据技术原理与应用》第 3 版课后简答题

最编程 2024-05-25 19:50:08

...

课后简答题

答案网址，对着看

大数据技术原理与应用第三版答案合集-百度文库 (baidu.com)

第一章大数据概述

1.试述信息技术发展史上的3次信息化浪潮及其具体内容。

2.试述数据产生方式经历的几个阶段。

3.试述大数据的4个基本特征。

4.试述大数据时代的“数据爆炸”特性。

5.科学研究经历了哪4个阶段?

6.试述大数据对思维方式的重要影响。

7.大数据决策与传统的基于数据仓库的决策有什么区别?

8.举例说明大数据的具体应用。

9.举例说明大数据的关键技术。

10.大数据产业包含哪些层面?

11.给出以下术语的定义:云计算、物联网。

12.详细阐述大数据、云计算和物联网三者之间的区别与联系。

第二章大数据处理架构Hadoop

1.试述Hadoop和谷歌的MapReduce、GFS等技术之间的关系。

2.试述Hadoop具有哪些特性。

3.试述Hadoop在各个领域的应用情况。

4.试述Hadoop生态系统以及每个部分的具体功能。

5.配置Hadoop时，Java 的路径JAVA_ HOME是在哪- - 个配置文件中进行设置的?

6.所有节点的HDFS路径是通过fs.default.name来设置的,请问它是在哪个配置文件中设置的?

7.试列举单机模式和伪分布模式的异同点。

8.Hadoop伪分布式运行启动后所具有的进程都有哪些?

9.如果具备集群实验条件,请尝试按照Hadoop官方文档搭建全分布式的Hadoop集群环境。

第三章分布式文件系统HDFS

试述分布式文件系统设计的需求。

2.分布式文件系统是如何实现较高水平扩展的?

3.试述HDFS中的块和普通文件系统中的块的区别。

4.试述HDFS中的名称节点和数据节点的具体功能。

5.在分布式文件系统中，中心节点的设计至关重要，请阐述HDFS是如何减轻中心节点的负担的。

HDFS 只设置唯一-- 个名称节点，在简化系统设计的同时也带来了一些明显的局限性,请阐述局限性具体表现在哪些方面。

7.试述HDFS的冗余数据保存策略。

8.数据复制主要在数据写人和数据恢复的时候发生，HDFS数据复制使用流水线复制的策略，请阐述该策略的细节。

9.试述HDFS是如何探测错误发生以及如何进行恢复的。

10.请阐述HDFS在不发生故障的情况下读文件的过程。

11.请阐述HDFS在不发生故障的情况下写文件的过程。

第四章分布式数据库HBase

试述在Hadoop体系架构中HBase与其他组成部分的相互关系。
请阐述HBase和BigTable的底层技术的对应关系。
请阐述HBase和传统关系数据库的区别。
HBase 支持哪些类型的访问接口?
请以实例说明HBase数据模型。
分别解释HBase中行键、列键和时间戳的概念。
请列举实例来阐述HBase的概念视图和物理视图的区别。
试述HBase各功能组件及其作用。
请阐述HBase的数据分区机制。
HBase 中的分区是如何定位的?
试述HBase的三层结构中各层次的名称和作用。
请阐述在HBase三层结构下，客户端是如何访问到数据的。
试述HBase系统基本架构及其每个组成部分的作用。
请阐述Region服务器向HDFS中读写数据的基本原理。
试述HStore的工作原理。
试述HLog的工作原理。
在HBase中，每个Region服务器维护- 一个HLog, 而不是每个Region都单独维护-一个HLog。请说明这种做法的优点和缺点。

第七章 MapReduce

试述MapReduce和Hadoop的关系。
MapReduce 是处理大数据的有工具，但不是每个任务都可以使用MapReduce来进行处理的。试述适合用MapReduce来处理的任务或者数据集需满足怎样的要求。
MapReduce 计算模型的核心是Map函数和Reduce兩数，试述这两个函数各自的输入、输出以及处理过程。
试述MapReduce的工作流程(需包括提交任务、Map、Shufle. Reduce 的过程)。
Shuffle 过程是MapReduce工作流程的核心，也被称为奇迹发生的地方,试分析Shuffle过程的作用。
分别描述Map端和Reduce端的Shuffle过程(需包括溢写、排序、归并、“领取"的过程)。
MapReduce 中有这样-一个原则:移动计算比移动数据更经济。试述什么是本地计算,并分析为何要采用本地计算。
试说明一个MapReduce程序在运行期间所启动的Map任务数量和Reduce任务数量各是由什么因素决定的。
是否所有的MapReduce程序都需要经过Map和Reduce这两个过程?如果不是，请举例说明。
试分析为何采用Combiner 可以减少数据传输量。是否所有的MapReduce程序都可以采用Combiner?为什么?
MapReduce程序的输人文件、输出文件都存储在HDFS中，而在Map任务完成时得到的中间结果存储在本地磁盘中。
试分析中间结果存储在本地磁盘而不是HDFS上有何优缺点。
早期的HDFS,其默认块( Block)大小为64 MB，而较新的版本默认为128 MB,采用较大的块具有什么影响和优缺点?
试画出使用MapReduce来对英语句子“Whatever is worth doing is worth doing well"进行单词统计的过程。.在基于MapReduce的单词统计中, MapReduce如何保证相同的单词数据会划分到同一个Reducer.上进行处理以保证结果的正确性?
MapReduce 可用于对数据进行排序，- - 种想法是利用MapReduce的自动排序功能，即默认情况下，Reduce任务的输出结果是有序的，如果只使用一- 个Reducer来对数据进行处理.输出，则结果就是有序的了。但这样的排序过程无法充分利用MapReduce的分布式优点。试设计一个基于MapReduce的排序算法，假设数据均位于[1, 100]， Reducer 数量为4,正序输出结果或逆序输出结果均可。试简要描述该算法(可使用分区、合并过程)。
试设计一个基于MapReduce的算法，求出数据集中的最大值。假设Reducer大于1,试简要描述该算法(可使用分区、合并过程)。
对于稀疏矩阵的乘法，试思考出与正文中矩阵乘法所采用的不同的MapReduce策略，写出相应的Map函数和Reduce函数。
当输人为由许多整数构成的文件、输出为最大整数时，试设计MapReduce算法实现上述功能，并写出Map丽数和Reduce函数。
试述实现矩阵-向量乘法与矩阵乘法采用不同MapReduce策略的原因。
为非方阵矩阵(即行数与列数不等的矩阵)的乘法运算设计- -般化的MapReduce算法，并写出Map函数和Reduce函数。

第十四章基于Hadoop的数据仓库Hive

1.试述在Hadoop生态系统中Hive与其他组件之间的相互关系。

2.请简述Hive与传统数据库的区别。

3.请简述Hive的几种访问方式。

4.请分别对Hive的几个主要组成模块进行简要介绍。

5.请简述向Hive中输人- - 条查询的具体执行过程。

6.请简述Hive HA原理。

7.请简述Impalad进程的主要作用。

8.请比较Hive与Impala的异同点。

9.请简述State Store的作用。

10.请简述Impala执行- - 条查询的具体过程。

11.请列举Hive中的列所支持的3种集合数据类型。

12.请列举几个Hive的常用操作及基本语法。

原文地址：https://www.cnblogs.com/ljer/p/17114391.html

上一篇：物联网学习 (5) - 对象建模

下一篇： Fast Möbius/Walsh Transform (FMT/FWT)-1.( m or) (and)