MySQL、PostgreSQL、ClickHouse、MongoDB 的区别，包含 5 个数据库的项目的适用场景 - I. 常用数据库概述

最编程 2024-10-14 07:06:05

...

1.1 关系型数据库

关系型数据库通常是业务型项目的主力数据库，原因以下：

方便业务建模，表的关系和业务之间的关联是类似的
数据一致性，关系型数据库一般支持ACID特性，可用于核心业务场景的数据持久化

关系型数据库的基本单位是表，表与表之间通过键关联，比如学生表和班级表，可以通过班级ID，把学生和班级关联起来。

在这里插入图片描述

关系型数据库的经典代表：MySQL、Orcle、PostgreSQL、SQLite等。

1.2 非关系型数据库

非关系型数据库其实只是一个比较笼统的叫法，实际分类下有非常多，这里只介绍键值对、文档、列式存储、图形结构等几种。

1.2.1 KV数据库

KV数据库以键值对的形式存储数据，常见底层数据结构实现是哈希表，读数据复杂度是O(1)。

key	value
name	jw
score	{chinese:90, math:99}

key-value存储的数据通常单个key-value就是一个条独立的数据，很方便水平扩展，可以根据key散列到不同的分片，且读的性能极好，因此常用于做缓存。

经典代表有Redis、Memcached和LevelDB等。

1.2.2 文档型数据库

文档型数据库的数据以文档的形式存储数据，每个文档类似一个JSON对象。

比于KV存储，文档型数据库同样对水平扩展友好，且具有更好的查询性能，支持复杂查询，而KV存储几乎只通过key来读取数据。

在这里插入图片描述

经典的文档型数据库有MongoDB、CouchDB和Elasticsearch等。

1.2.3 列式存储数据库

经典的列式存储数据库有HBase、Druid、ClickHouse等，不同列式数据库的底层实现差别挺大的，它们的共同点是按列存储。

比如说MySQL存一个学生信息，有学号和姓名等，这两个字段在同一行，存放也是在一起的；但是列式数据库会按列划分存储，把学号和姓名分开存储，相同的数据类型有利于进行数据压缩、聚合操作等。

下面是HBase的一条数据组成解析，一个Row Key（行键）下有多个Column Family（列族），列族下面有Column Qualifier（列限定符），最后会根据设置保存若干个版本，形成Timestamp/version: Cell Value的键值对。这里我们只需要知道不同的列族是分开存储的就行了。
在这里插入图片描述

1.2.4 图数据库

图数据库的基本单元是点和边，经典的图数据库包括Neo4j、OrientDB、TigerGraph等。

简单来说点表示实体，而边则表示实体间的关系，组成一个整体后，可以形成知识图谱、社交网络、金融风控网络等。

在这里插入图片描述

比如存储了上图关系，可以直接查询关注了豆小匠Coding的用户：

MATCH (user:User {name: '豆小匠Coding'})<-[:FOLLOWS]-(follower:User)
RETURN follower.name

上述查询使用了 Neo4j 的图查询语言 Cypher。它首先通过 MATCH 子句找到名为豆小匠的用户节点 user，然后通过 -[:FOLLOWS]-> 关系查找所有关注了该用户的节点 follower。最后，通过 RETURN 子句返回关注者的姓名。

1.3 SQL与NoSQL区别

NoSql是相对于传统关系型数据库而言，有很大差异的一种数据库。

1.3.1 结构化与非结构化

传统关系型数据库是结构化数据，每一张表都有严格的约束信息：字段名、字段数据类型、字段约束等等信息，插入的数据必须遵守这些约束：

在这里插入图片描述

而NoSql则对数据库格式没有严格约束，往往形式松散，*。

可以是键值型：

在这里插入图片描述

也可以是文档型：

在这里插入图片描述

甚至可以是图格式：

在这里插入图片描述

1.3.2 关联和非关联

传统数据库的表与表之间往往存在关联，例如外键：

在这里插入图片描述

而非关系型数据库不存在关联关系，要维护关系要么靠代码中的业务逻辑，要么靠数据之间的耦合：

{
  id: 1,
  name: "张三",
  orders: [
    {
       id: 1,
       item: {
	 id: 10, title: "荣耀6", price: 4999
       }
    },
    {
       id: 2,
       item: {
	 id: 20, title: "小米11", price: 3999
       }
    }
  ]
}

此处要维护“张三”的订单与商品“荣耀”和“小米11”的关系，不得不冗余的将这两个商品保存在张三的订单文档中，不够优雅。还是建议用业务来维护关联关系。

1.3.3 查询方式

传统关系型数据库会基于Sql语句做查询，语法有统一标准；

而不同的非关系数据库查询语法差异极大，五花八门各种各样。

在这里插入图片描述

1.3.4 事务

传统关系型数据库能满足事务ACID的原则。

在这里插入图片描述

而非关系型数据库往往不支持事务，或者不能严格保证ACID的特性，只能实现基本的一致性。

1.3.5 总结

除了上述四点以外，在存储方式、扩展性、查询性能上关系型与非关系型也都有着显著差异，总结如下：

在这里插入图片描述

存储方式
- 关系型数据库基于磁盘进行存储，会有大量的磁盘IO，对性能有一定影响
- 非关系型数据库，他们的操作更多的是依赖于内存来操作，内存的读写速度会非常快，性能自然会好一些

扩展性
- 关系型数据库集群模式一般是主从，主从数据一致，起到数据备份的作用，称为垂直扩展。
- 非关系型数据库可以将数据拆分，存储在不同机器上，可以保存海量数据，解决内存大小有限的问题。称为水平扩展。
- 关系型数据库因为表之间存在关联关系，如果做水平扩展会给数据查询带来很多麻烦

上一篇：自然语言处理概述 - 自然语言处理的关键任务

下一篇：个人健康系统|个人健康数据管理系统|基于applet+java的个人健康数据管理系统设计与实现（源代码+数据库+文档）