Hive 中的 FileFormat、RowFormat 和 SerDe 摘要

最编程 2024-05-01 16:06:29

...

Hive如何读写数据？

我们知道，hive表的数据是存储在hdfs文件系统中的。那么Hive是如何将hdfs上的数据文件，映射成一张张表呢，今天就来理清楚这个问题。

官方文档中对于Hive读数据的流程如下：

精炼一下：Hive的执行引擎首先通过InputFormat读取一条一条的数据记录，接着调用Serde.destrialize()来执行记录的反序列化，即将各种格式的数据反序列化为行对象，其中就包括切分和解析字段。

可以简单理解为:Hive使用FileFormat和SerDe读写数据。以读数据为例：InputFormat用于将数据拆成一条一条的记录，SerDe用于从一条记录中拆分字段。

什么是FileFormat？

FileFormat即文件格式，Hive内置文件格式包括textfile、orc、parquet、avro、jsonfile等，在建表语句中的stored as ...中指定。其中，textfile是Hive默认的文件存储格式，可以通过hive.default.fileformat配置。

这几种文件格式，都有各自默认的SerDe、InputFormat和OutputFormat，举个例子：当我们指定Stored as orc的时候，等同于指定了下面三个配置：

需要注意的是，同一种文件格式的每一行数据的行格式也会有所不同，这就涉及到另一个概念：RowFormat。

什么是RowFormat？

RowFormat即行格式。比如同样是textFile文件，其中的行格式可以是RegEx正则类型、Json类型、CSV/TSV等。行格式不同，从一条记录中拆分字段的方式也不同。此时就需要指定不同的SerDe。

什么是SerDe？

SerDe是Serialize/Deserilize的简称，用于序列化和反序列化，SerDe能为表解析、拆分列，且对列指定相应的数据。在建表语句中有两种定义行格式方式：row format delimited或serde ，填写delimited表示使用默认的LazySimpleSerDe类来处理数据，对一行记录按照特定分隔符进行分割；填写SerDe表示使用其他的SerDe，甚至是用户自己自定义的SerDe。如果在建表时没有通过row format语法指定分隔符，则采用默认分隔符：\001。

除了内置的文件格式，Hive还支持用户开发的文件格式，此时，需要显式的指定inputformat 和outputformat，此时若不指定SerDe，会使用默认的SerDe。

上一篇： JavaScript--自动填写问卷

下一篇：超级完整版--模拟微信网页聊天界面（html+CSS+js）