数据结构和持久化机制的 Redis 基本原理
最编程
2024-03-30 07:20:04
...
Redis 是一个开源的、基于内存的高性能键值存储数据库,它支持多种类型的数据结构。Redis 的数据结构类型和它们的底层实现是 Redis 强大功能和高效性能的基础。以下是 Redis 支持的主要数据结构类型以及其底层数据结构和原理:
基础数据结构
1. 字符串(String)
- 底层数据结构:简单动态字符串(Simple Dynamic String, SDS)。SDS 是 Redis 的默认字符串表示形式,它在 C 语言的字符串表示(以 null 结尾的字符数组)之上提供了更多的元信息,如字符串长度和缓冲区剩余空间,从而使字符串操作更加高效。
- 应用场景:存储文本或二进制数据,如缓存用户信息、会话、计数器等。
2. 列表(List)
- 底层数据结构:双向链表(linked list)或压缩列表(ziplist)。Redis 会根据列表的大小和操作的性质选择最合适的底层数据结构。小列表使用压缩列表可以节省空间,而大列表则使用双向链表以优化插入和删除操作。
- 应用场景:消息队列、最近使用页面(LRU)缓存等。
3. 集合(Set)
- 底层数据结构:哈希表(hashtable)或整数集合(intset)。整数集合用于存储小的整数集合,而当集合中的元素或元素的数量超过一定阈值时,Redis 会使用哈希表来存储集合元素。
- 应用场景:存储不重复元素的集合,如标签、投票、社交网络中的好友关系等。
4. 有序集合(Sorted Set)
- 底层数据结构:跳跃表(Skip List)和哈希表的组合。跳跃表用于维护元素的顺序,而哈希表则用于快速查找元素。
- 应用场景:排行榜、时间线、按分数排序的数据项等。
5. 哈希(Hash)
- 底层数据结构:压缩列表(ziplist)或哈希表(hashtable)。当哈希中存储的字段和值都比较小且数量不多时,使用压缩列表更加内存高效。当哈希结构变大时,会自动转换为哈希表。
- 应用场景:存储对象的属性和值,如用户的各种信息等。
6. 位图(Bitmap)
- 底层数据结构:实际上是字符串(SDS)的一种特殊应用,通过位操作命令来处理。
- 应用场景:统计、特征标志、实现简单的布尔过滤器等。
7. HyperLogLog
- 底层数据结构:基于概率算法的数据结构,用于进行基数估算。
- 应用场景:大数据量的去重计数,如统计网站访客数等。
8. 地理空间索引(Geo)
- 底层数据结构:有序集合。利用有序集合来存储地理位置信息,并通过有序集合提供的范围查询功能来实现位置查询和范围查询。
- 应用场景:地理位置服务,如查找附近的商店、服务等。
高级数据结构
- 流(Streams):Redis Streams 是一个消息队列数据结构,类似于 Apache Kafka。它提供了持久化消息队列的能力,非常适合构建事件驱动的应用程序。底层实现基于一个排序的哈希表,支持复杂的消费者组功能。
Redis持久化机制
Redis 提供了两种主要的持久化机制:RDB(Redis 数据库快照)和 AOF(追加文件)。这两种机制可以单独使用,也可以同时使用,以满足不同的数据持久化需求。
1. RDB 持久化
RDB 持久化会在指定的时间间隔内生成内存数据的快照,并将其保存到磁盘上的一个二进制文件中(通常是 dump.rdb)。
过程
-
触发:RDB 快照可以通过配置来自动触发,比如每隔一定时间或达到一定数量的写操作后。也可以手动触发,如执行
SAVE
或BGSAVE
命令。 - SAVE 命令:执行 RDB 快照操作,会阻塞所有客户端请求直到快照完成。
- BGSAVE 命令:启动一个子进程来创建快照,主进程会继续处理客户端请求。
注意事项
- 性能:使用 BGSAVE 时,虽然主进程不会被阻塞,但是在快照过程中会增加一定的内存和 CPU 使用,因为需要复制整个数据集到子进程。
- 数据恢复:RDB 适合需要快速恢复整个数据集的场景。但在故障发生后,自上次快照以来的所有数据变更都会丢失。
2. AOF 持久化
AOF 持久化通过记录数据库状态变更的命令来持久化数据。这些命令会被追加到 AOF 文件的末尾,以确保数据的持久化。
过程
- 记录:每个写命令在执行后都会被追加到 AOF 文件中。
-
重写:随着时间的推移,AOF 文件可能会变得非常大。Redis 提供了 AOF 重写机制,来创建一个新的 AOF 文件,其中只包含达到当前数据库状态所需的最少命令。这可以通过
BGREWRITEAOF
命令手动触发,也可以配置自动触发。 - 加载:Redis 重启时,会读取 AOF 文件来重建原始数据库的状态。
注意事项
- 数据安全:AOF 持久化提供了更好的数据安全性,因为它可以配置为每个写命令后立即同步到磁盘,或者每秒同步一次。
- 性能:相比 RDB,AOF 可能会因为频繁的磁盘写操作而导致性能下降。AOF 重写是解决 AOF 文件过大问题的关键。
RDB 与 AOF 的区别和选择
-
数据安全:AOF 可以提供更高级别的数据安全性,因为它支持更频繁的同步选项。
-
性能:对于大多数读取密集型的应用,RDB 可以提供更好的性能,因为它对磁盘 IO 的需求通常比 AOF 小。
-
恢复速度:RDB 允许更快的数据恢复,因为只需要加载单个快照文件。而 AOF 文件可能非常大,加载时间更长。
-
持久化策略:可以根据需求选择不同的持久化策略。对于需要最小数据丢失的系统,推荐使用 AOF。如果是更关心性能和快速恢复,RDB 可能是更好的选择。
-
结合使用:在许多场景下,结合使用 RDB 和 AOF 可以提供既
-
优秀的数据安全性又能维持良好性能的解决方案。通过配置 Redis 同时使用 RDB 和 AOF 持久化,可以利用各自的优点来达到最佳的效果:
- 在大多数情况下,Redis 可以通过 AOF 文件来恢复数据,确保了数据的高安全性,因为 AOF 会尽可能频繁地记录每个写操作。
- 在 AOF 重写或者性能敏感的情况下,可以依赖 RDB 快照来提供一个更快速的数据恢复点,同时减轻因 AOF 重写可能带来的性能影响。
结合使用时的注意事项
- 数据恢复顺序:当 Redis 同时启用了 RDB 和 AOF 持久化,且都存在有效文件时,Redis 在启动时会优先使用 AOF 文件来恢复数据,因为 AOF 文件通常包含更完整的数据历史。
- 配置冲突:确保理解 RDB 和 AOF 的配置选项,并正确配置以避免不必要的性能开销。例如,不需要太频繁的 RDB 快照,如果 AOF 以较高的频率进行同步。
- 监控和维护:定期监控 RDB 快照和 AOF 文件的大小,以及 AOF 重写的性能影响。根据需要调整配置,比如调整 AOF 重写的触发条件,或是调整 RDB 快照的频率。
高级配置
- AOF 重写缓冲区:在 AOF 重写过程中,Redis 会使用一个专用的缓冲区来存储重写期间发生的所有写操作。这确保了即使在重写过程中,新的写操作也不会丢失。
- 混合持久化:从 Redis 4.0 开始,引入了一种混合持久化模式(AOF 和 RDB 混合),它会在 AOF 文件中嵌入一个 RDB 格式的数据快照。这种方式旨在结合 AOF 持久化的数据安全性和 RDB 持久化的快速加载能力。
- AOF 重写调度:通过合理安排 AOF 重写的执行时间,可以最小化对生产环境的影响。考虑在系统负载较低的时间段执行 AOF 重写操作。
上一篇: Spark Stage
推荐阅读
-
什么是数据库事物?为什么需要数据库事物,事物有哪些特征?事物的隔离级别是什么?-1.什么是数据库事务? 1.事务是作为一个逻辑单元执行的一系列操作。一个逻辑工作单元必须具备四个属性,即ACID(原子性、一致性、隔离性和持久性)属性,只有这样才能成为事务: 原子性 2.事务必须是一个原子工作单元;它的数据修改要么全部执行,要么全部不执行。 一致性 3.事务完成时,所有数据必须保持一致。在相关数据库中,所有规则都必须适用于事务的修改,以保持所有数据的完整性。事务结束时,所有内部数据结构(如 B 树索引或双向链接表)必须正确无误。 隔离 4.并发事务的修改必须与其他并发事务的修改隔离。一个事务会在另一个并发事务修改之前或之后查看某一状态下的数据,而不会查看中间状态下的数据。这就是所谓的可序列化,因为它允许重新加载起始数据和重放一系列事务,从而使数据最终处于与原始事务执行时相同的状态。 持久性 5.事务完成后,它对系统的影响是永久性的。即使在系统发生故障的情况下,修改也会保留。 2. 为什么需要数据库事物,事物有哪些特征? 事物对数据库的作用是对数据进行一系列操作,要么全部成功,要么全部失败,防止出现中间状态,确保数据库中的数据始终处于正确、和谐的状态。 特征:原子性、一致性、隔离性、持久性,以及其他特征 原子性(Atomicity):所有操作在事务开始后,要么全部做完,要么全部不做,不可能停滞在中间环节。事务执行过程中出现错误时,会回滚到事务开始前的状态,所有操作就像没有发生一样。也就是说,事务是一个不可分割的整体,就像化学中的原子一样,是物质的基本单位。 一致性(Consistency):在事务开始之前和结束之后,数据库的完整性约束都没有被破坏。例如,如果 A 转钱给 B,A 不可能扣除这笔钱,但 B 却没有收到这笔钱。 隔离:在同一时间内,只允许一个事务请求相同的数据,不同事务之间没有干扰。例如,甲正在从一张银行卡上取款,在甲取款过程结束之前,乙不能向这张卡转账。 持久性(耐用性):事务完成后,事务对数据库的所有更新都将保存到数据库中,无法回滚 3.事务的隔离级别有哪些? 数据库事务有四种隔离级别,从低到高分别是未提交读取(Read uncommitted)、已提交读取(Read committed)、可重复读取(Repeatable read)、可序列化(Serializable)。此外,事务的并发操作中可能会出现脏读、不可重复读、幽灵读等情况。事务并发问题 脏读:事务 A 读取事务 B 更新的数据,然后事务 B 回滚操作,那么事务 A 读取的数据就是脏数据。 不可重复读取:事务 A 多次读取同一数据,事务 B 在事务 A 多次读取期间更新并提交数据,导致事务 A 多次读取同一数据时结果不一致。 幻影读取:系统管理员 A 将数据库中所有学生的具体分数改为 ABCDE 等级,但系统管理员 B 在此时插入了具体分数的记录,当系统管理员 A 更改结束后发现仍有一条记录未被更改,仿佛发生了幻觉,这称为幻影读取。 小结:不可重复读和幻读容易混淆,不可重复读侧重于修改,幻读侧重于增删。解决不可重复读问题只需锁定满足条件的行,解决幻读问题则需要锁定表 MySQL 事务隔离级别
-
Redis 从开始到结束(3)--Redis RDB 和 AOF 的两种持久化方法
-
数据结构和持久化机制的 Redis 基本原理
-
反传销网8月30日发布:视频区块链里的骗子,币里的韭菜,杜子建骂人了!金融大V周召说区块链!——“一小帮骗子玩一大帮小白,被割韭菜,小白还轮流被割,割的就是你!” 什么区块链,统统是骗子 作者:周召(知乎金融领域大V,毕业于上海财经大学,目前任职上海某股权投资基金合伙人) 有人问我,区块链现在这么火,到底是不是骗局? 我的回答是: 是骗局。而且我并不是说数字货币是骗局,而是说所有搞区块链的都是骗局。 -01- 区块链是一种鸡肋技术 人类社会任何技术的发明应用,本质都是为了提高社会的生产效率。而所谓区块链技术本质不过是几种早已成熟的技术的大杂烩,冗余且十分低效,除了提高了洗钱和诈骗的效率以外,对人类社会的进步毫无贡献。 真正意义上的区块链得包含三个要素:分布式系统(包括记账和存储),无法篡改的数据结构,以及共识算法,三者互为基础和因果,就像三体世界一样。看上去挺让人不明觉厉的,而经过几年的瞎折腾,稍微懂点区块链的碰了几次壁后都已经渐渐明白区块链其实并没有什么卵用,区块链技术已经名存实亡,沦为了营销工具和传销组织的画皮。 因为符合上述定义的、以比特币为代表的原教旨区块链技术,是反效率的,从经济学角度来说,不但不是一种帕累托改进,甚至还可以说是一种帕累托倒退。 原教旨区块链技术的效率十分低下,因为要遍历所有节点,只能做非常轻量级的数据应用,一旦涉及到大量的数据传输与更新,区块链就瞎了。 一方面整条链交易速度会极慢,另一方面数据库容量极速膨胀,考虑到人手一份的存储机制,区块链其实是对存储资源和能源的一种极大的浪费。 这里还没有加上为了取得所谓的共识和挖矿消耗的巨大的能源,如果说区块链技术是屎,那么这波区块链投机浪潮可谓人类历史上最大规模的搅屎运动。 区块链也验证不了任何东西。 所谓的智能合约,即不智能,也非合约。我看有人还说,如果有了智能合约,就可以跟老板签一份放区块链上,如果明年销售业绩提升30%,就加薪10%,由于区块链不能篡改,不能抵赖,所以老板必须得执行,说得有板有眼,不懂行的愣一看,好像还真是那么回事。 但仔细一想,问题就来了。首先,在区块链上如何证明你真的达到了30%业绩提升?即便真的达到老板耍赖如何执行? 也就是说,如果区块链真这么厉害,要法院和仲裁干什么。 人类社会真正的符合成本效益原则的是代理制度。之前有人说要用区块链改造注册会计师行业,我不知道他准备怎么设计,我猜想他思路大概是这样的,首先肯定搞去中心化,让所有会计师到链上来,然后一个新人要成为注册会计师就要所有会计师同意并记录在链上。 那我就请问了,我每天上班累死累活,为什么还要花时间去验证一个跟我无关的的人的专业能力?最优做法当然是组织一个委员会,让专门的人来负责,这不就是现在注册会师协会干的事儿吗?区块链的逻辑相当于什么事情都要拿出来公投,这个绝对是扯淡的。 当然这么说都有点抬举区块链了,区块链技术本身根本没有判断是非能力,如果这么高级的人工智能,靠一个无脑分布式记账就能实现的话,我们早就进入共产主义社会了。 虽然EOS等数字货币采用了超级节点,通过再中心化的方式提高效率,有点行业协会的意思,是对区块链原教旨主义的一种修正,但是依然无法突破区块链技术最本质的局限性。有人说,私有链和联盟链是区块链技术的未来,也是扯淡,因为区块链技术没有未来。如果有,说明他是包装成区块链的伪区块链技术。 区块链所涉及的所有底层技术,不管是分布式数据库技术,加密技术,还是点对点传输技术等,基本都是早已存在没什么秘密可言的技术。 比特币系统最重要的特性是封闭性和自洽性,他验证不了任何系统自身以外产生的信息的真实性。 所谓系统自身产生的信息,就是数据库数据的变动信息,有价值的基本上有且只有交易信息。所以说比特币最初不过是中本聪一种炫技的产物,来证明自己对几种技术的掌握,你看我多牛逼,设计出了一个像三体一样的系统。因此,数字货币很有可能是区块链从始至终唯一的杀手应用。 比特币和区块链概念从诞生到今天已经快10年了,很多人说区块链技术在爆发的前夜,但这个前夜好像是不是有点过长了啊朋友,跟三体里的长夜有一拼啊。都说区块链技术像是90年代初的互联网,可是90年代初的互联网在十年发展后,已经出现了一大批伟大的公司,阿里巴巴在99年都成立了,区块链怎么除了币还是币呢? 正规的数字货币未来发展的形式无外乎几种,要么就是论坛币形式,或者类似股票的权益凭证等。问题是论坛币和股票之前,本来也都电子化了,区块链来了到底改变了什么呢? 所有想把TOKEN和应用场景结合起来的人最后都很痛苦,最后他们会发现区块链技术就是脱裤子放屁,自己辛苦搞半天,干嘛不自己作为中心关心门来收钱?最后这些人都产生了价值的虚无感,最终精神崩溃,只能发币疯狂收割韭菜,一边嘴里还说着我是个好人之类的奇怪的话。 因此,之前币圈链圈还泾渭分明,互相瞧不起,但这两年链圈逐渐坐不住了,想着是不是趁着泡沫没彻底破灭之前赶快收割一波,不然可能什么都捞不着了。 前段时间和一个名校毕业的链圈朋友瞎聊天,他说他们“致力于用区块链技术解决数字版权保护问题”,我就问他一个问题,你们如何保证你链的版权所有权声明是真实的,万一盗版者抢先一步把数据放在链上怎么办。他说他们的解决方案是连入国家数字版权保护中心的数据库进行验证…… 所以说区块链技术就是个鸡肋,研究到最后都会落入效率与真实性的黑洞,很多人一头扎进链圈后才发现,真正意义上的区块链技术,其实什么都干不了。 -02- 不是蠢就是坏的区块链媒体 空气币和区块链的造富神话,让区块链自媒体也开始迎风乱扭。一群群根本不知道区块链为何物的妖魔鬼怪纷纷进驻区块链自媒体战场,开始大放厥词胡编乱造。 任何东西,但凡只要和区块,链,分,分布式,记账,加密,验证,可追溯等等这些个关键词沾到哪怕一点点,这些所谓的区块链媒体人就会像狗闻到了屎了一样疯狂地把区块链概念往上套。 这让我想起曾经一度也是热闹非凡的物联网,我曾经去看过江苏一家号称要改变世界的“物联网”企业,过去一看是生产路由器的,我黑人问号脸,对方解释说没有路由器万物怎么互联,我觉得他说得好有道理,竟无言以对。 好,下面让我们进入奇葩共赏析时间,来看看区城链媒体经常有哪些危言耸听的奇谈怪论 区块链(分布式记账)的典型应用是*?? 正如前面所说,真正意义上的区块链分布式记账,不光包括“记”这个动作,还包括分布式存储和共识机制等。而*诞生远远早于区块链这个词的出现,勉强算是“分布式编辑”吧,就被很多区块链媒体拿来强行充当区块链技术应用的典范。 其实事实恰恰相反,*恰恰是去中心化失败的典范,现在如果没有精英和专业人士的编辑和维护,*早就没法看了。 区块链会促进社会分工?? 罗振宇好像就说过类似的话,虽然罗振宇说过很多没有逻辑的话,但这句话绝对是最没逻辑思维的。很多区块链自媒体也常常用这句话来忽悠老百姓,说分工代表效率提高社会进步,而区块链“无疑”会促进分工,他们的理由仅仅是分工和分布式记账都共用一个“分”字,就强行把他们扯到一起。 实际情况恰恰相反,区块链是逆分工的,区块链精神是号召所有人积极地参与到他不擅长也不想掺合的事情里面去。 区块链不能像上帝一样许诺他的子民死后上天国,只能给他们许诺你们是六度人脉中的第一级,我可以赚后面五级人的钱,你处于金字塔的顶端。
-
Redis 中的 RDB 和 AOF 持久性机制 (I)
-
阿里味 "的《Redis核心实践全彩手册》给你,还学不会转行--Redis基本是必考点。在 "阿里味 "的《Redis核心实战全彩手册》里,你还是学不会转行--Redis基本是必考点: - Redis 常见的性能问题有哪些?Redis 最常见的性能问题有哪些,如何解决?--性能相关 - Redis 缓存的雪崩、击落和穿透到底意味着什么?如何处理?--缓存相关 - Redis 主从集群有哪些常见问题?如何解决?--可用性 - 现有的 Redis 实例有 6GB 的存储空间,预计将来会扩展到 32GB,你能提供解决方案并分析其优势和潜在问题吗?--可扩展性相关 毕竟,10 家公司中至少有 8 家的架构系统中都有 Redis,基本上可以说是 IT 基础架构的必备系统。 因此,Redis 的开发和运维是很多大厂的重要工作,也是我们必须掌握的技术栈。 不过,Redis 毕竟是一个复杂的键值数据库,在实际使用中,有非常多的技术点需要注意,比如:各种数据结构、数据持久化机制、分片集群、主从集群等等。 一不小心,性能就会每况愈下,失去 "快 "的最大特点!
-
标题:一文搞定Redis面试,附Redis面试大纲+常见Redis面试题-一、基础篇 快速上手 ①. 什么是redis ②. 为什么使用redis ③. 安装 ④. 基本使用(常见数据结构的命令) Java操作redis ①. Jedis ②. SpringBoot 启动redis的方式 ①. 配置文件 ②. 生产环境启动方案 二、进阶篇 redis实现session共享 redis缓存的使用 ①. 注解式 ②. Spring Cache 数据库和缓存双写一致性问题——穿透 redis实现附近的人 redis实现计数器 redis事务 redis分布式锁的使用 redis集群 redis实现延时队列 redis实现限流 redis实现布隆过滤器 发布订阅 redis优化 三、原理篇 redis单线程为什么性能好 数据类型的底层实现 持久化机制 过期策略 内存淘汰 redis优化 哨兵模
-
Redis的持久化机制