大数据技术] Hive 基本原理和使用教程

最编程 2024-03-23 10:36:41

...

元数据存储：Hive 使用元数据来描述数据存储在Hadoop分布式存储系统中的方式。元数据包含表的schema（列名、数据类型等）、表的分区、表的位置等信息，这些元数据通常存储在关系型数据库中，如MySQL。
HiveQL查询解析：用户使用类SQL语言HiveQL编写查询，Hive会将HiveQL语句解析成抽象语法树AST（Abstract Syntax Tree），然后转化为逻辑执行计划，最终转换为物理执行计划。
执行引擎：Hive可以运行在不同的执行引擎上，比如MapReduce、Tez、Spark等。执行引擎负责将物理执行计划转换为任务并在Hadoop集群上执行。
数据存储格式：Hive支持多种数据存储格式，如文本文件、Parquet、ORC等。选择合适的数据存储格式可以影响查询性能和存储效率。

在终端输入 hive 命令启动Hive CLI（命令行界面）。

CREATE DATABASE IF NOT EXISTS mydatabase;

CREATE TABLE IF NOT EXISTS mytable (
    id INT,
    name STRING
) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;

LOAD DATA LOCAL INPATH '/path/to/datafile.csv' OVERWRITE INTO TABLE mytable;

SELECT * FROM mytable WHERE id = 1;

CREATE TABLE IF NOT EXISTS partitioned_table (
    id INT,
    name STRING
) PARTITIONED BY (date STRING);

SELECT COUNT(*) FROM mytable;

可以编写自定义函数（UDF、UDAF）并在Hive中注册和使用以扩展功能。

在Hive CLI中输入 quit; 或 exit; 命令退出Hive。

参考资料

Hive（总）看完这篇，别说你不会Hive！-****博客

大数据技术之Hive-尚硅谷