容灾的架构分析和容灾选择策略-1.传统容灾中心的架构
容灾半径是衡量容灾方案所能承受的灾难影响范围的指标。不同灾难的影响范围是不同的,而距离也会影响到容灾技术的选择。容灾中心的架构按照源备端之间的距离,可分为本地容灾、同城双活、两地三中心。
1.1本地容灾
本地容灾一般指主机集群,当某台主机出现故障,不能正常工作时,其他的主机可以替代该主机,继续正常对外提供服务。通常可通过共享存储或双机双柜的方式实现本地容灾,其中多以共享存储为主。
共享存储由三部分组成:活动主节点,不活动备节点,共享存储。
其中两台计算资源节点提供主备角色服务,通过SAN网络附加型存储作为数据存储的介质。 主备节点共享一份存储,一旦主节点宕机,备节点可基于共享存储实现业务的接管。但共享存储的同构成本和远距离高可用接管成本过高,存在较大存储故障风险,且只支持一对一架构。
双机双柜是一种不依赖共享存储而实现的高可用保护架构,采用主备的高可用保护模式。在双机架构中,生产主机和备机具有物理层的完全独立性,应用、系统、网络和数据都是一式两份,生产主机和备机可通过存储网络或局域网进行连接。其中,本地的存储网络连接的主备高可用适用于近距离的容灾建设,受距离限制较大;异地远距离的主备高可用,则会存在极小的数据延时。
本地容灾的数据中心与灾备中心的距离比较近,通信线路质量较好,比较容易实现数据的同步复制 ,保证高度的数据完整性和数据零丢失。本地容灾一般用于防范火灾、建筑物破坏、供电故障、计算机系统及人为破坏引起的灾难。
1.2同城双活
同城双活属于本地容灾,但根据运营模式可以分为主备和双活两种形式:
主备模式即生产中心正常对外提供服务时,同步将数据单项复制到备端数据中心,且备端不对外提供服务。一旦生产中心故障,备端生产中心接管服务。这种模式资源投入较低且技术实施和后期维护相对简单,但是灾后业务恢复速度慢。
传统主备模式的弊端在于,备端长时间处于待机状态,存在资源浪费情况。且多种潜在因素如心跳线中断、网络短时间中断、应用服务器响应不及时等,容易导致在生产中心实际运行正常情况下进行误切换,即存在“脑裂”现象。
双活模式下的两个数据中心分别对外提供服务,且彼此之间保持双向复制。一旦一端故障,另一端立即接管其业务,保障业务的连续性。这种方式相较于主备模式,其业务恢复速度更快,但整体资源投入更高,实施及运维难度更复杂,且存在业务冲突风险。
业界更多采用的是两地三中心的做法。远端的备份机房能更大的提供灾备能力,能更好的抵抗地震,恐袭等情况。双活的机器必须部署到同城,距离更远的城市作为灾备机房。灾备机房是不对外提供服务的,只作为备份使用,发生故障了才切流量到灾备机房,原因主要在于:距离太远,网络延迟太大。
1.3两地三中心
两地三中心属于异地容灾,要求数据中心间距离须保证在三百公里以上,同时还必须做到“三不”,即不 在同一地震带,不在同一电网,不在同一江河流域。
最为稳固的、保护等级最高,也是成本最高的容灾方案,即“两地三中心”:本地的生产中心和灾备中心相距100km以上,进行应用级或业务级容灾保护,且在 300km 以外的异地建立灾备中心,进行数据级或应用级容灾保护。
随着IT应用的快速发展,金融,银行,*等越来越多的用户要求核心业务7*24不断网,不断电持续运行,一些大型企业为了尽最大可能减小大自然灾害对业务连续性的影响,而选择两地三中心的容灾方案,这样的方案具备高可用和灾难备份能力。
上一篇: 蘑菇街云端直播探索——启航篇
推荐阅读
-
容灾的架构分析和容灾选择策略-1.传统容灾中心的架构
-
小红书大产品部架构 小红书产品概览--经过性能、稳定性、成本等多个维度的详细评估,小红书最终决定选择基于腾讯云星海自研硬件的SA2云服务器作为主力机型使用。结合其秒级的快速扩缩、超强兼容和平滑迁移能力,小红书在抵御上亿次用户访问、保证系统稳定运行的同时,也实现了成本的大幅降低。 星海SA2云服务器是基于腾讯云星海的首款自研服务器。腾讯云星海作为自研硬件品牌,通过创新的高兼容性架构、简洁可靠的自主设计,结合腾讯自身业务以及百万客户上云需求的特点,致力于为云计算时代提供安全、稳定、性能领先的基础架构产品和服务。如今,星海SA2云服务器也正在为越来越多的企业提供低成本、高效率、更安全的弹性计算服务。 以下是与小红书SRE总监陈敖翔的对话实录。 问:请您介绍一下小红书及其主要商业模式? 小红书是一个面向年轻人的生活方式平台,在这里,他们发现了向上、多元的真实世界。小红书日活超过 3500 万,月活跃用户超过 1 亿,日均笔记曝光量达 80 亿。小红书由社交平台和在线购物两大部分组成。与其他线上平台相比,小红书的内容基于真实的口碑分享,播种不止于线上,还为线下实体店赋能。 问:围绕业务发展,小红书的系统架构经历了怎样的变革和演进? 系统架构变化不大,影响最深的是资源开销。过去三年,资源开销大幅增加,同比增长约 10 倍。在此背景下,我们努力进行优化,包括很早就开始使用 K8S 进行资源调度。到 18 年年中,绝大多数服务已经完全实现了容器化。 问:目前小红书系统架构中的计算基础设施建设和布局是怎样的? 我们目前的建设方式可以简单描述为星型结构。腾讯云在上海的一个区是我们的计算中心,承载着我们的核心数据和在线业务。在外围,我们还有两个数据中心进行计算分流,同时承担灾备和线上业务双活的角色。 与其他新兴电子商务互联网公司类似,小红书的大部分计算能力主要用于线下数据分析、模型训练和在线推荐等平台。随着业务的发展,对算力的需求也在加速增长。