数据中心服务保障的五项原则
数据中心承载着大量的应用业务,每逢重大节日或者访问洪峰的到来都需要做各种保障,以防出现突发事件,对应用造成影响。比如:互联网电商的双11大促销,高中考网站的报名,APEC等重要事件等等,这些事件有的是时间节点特别重要,尽量不要出问题,有的是访问数据中心流量压力特别大,尽量不要出问题。所以一年时间下来,数据中心需要保障的大大小小事件的确不少,而且每次服务保障任务侧重点也有不同,如何做好这些保障工作,考验着数据中心的运维服务能力水平。本文着重介绍做数据中心服务保障工作需要依据五个原则,下面将逐条讲述一些原则,通过这些原则将服务保障工作做好。
首先,数据中心要对每次需要保障的业务弄得清清楚楚,抓住痛点,解决痛点。如果是大型的节假日,这时考验的是数据中心整体业务的稳定性,尤其是节假日哪些应用访问量会增大,要提前做预案,根据往年积累的经验积极应对。如果往年系统出现了这样那样的问题,一定在这次的服务保障之前消除掉隐患。如果是电商促销,就要关注集中时间内访问用户的数量,模拟大规模数量的访问用户,看系统是否可以承受,这时就要关注计算、带宽这些资源是否足够,可能不足的地方要及时补全。一个数据中心可能承载了数百个甚至上千各种应用,要明确哪些是需要服务故障的,哪些是重要的,哪些是次要的,应用的重要性要有分级。在不同的活动中,不同的应用重要性是有变化的,要及时进行调整,将重要力量投入到关键节点的保障上来。
其次,数据中心的设计和运维的人员要坐到一起,共同讨论保障事宜。业务运维的人要深入理解数据中心的系统架构,从全局的视角去对待服务保障工作。数据中心的规模和应用有大有小,投入上必要有差异。如果一个数据中心仅有数十台的服务器和小型网络设备,没有必要对整体服务保障大动干戈,准备一些备用端口和设备,万一关键时刻出了问题,及时恢复业务就可以了,不需要将过多的资源和精力投入到服务保障上来。数据中心做服务保障也要综合考虑,资金和人力也是需要衡量的重要方便,要用最少的投入得到最好的效果。掌握整体架构,对服务保障非常重要,避免各种应急方案在关键时刻失效,要尽可能将可能的突发情况考虑完全。数据中心要建立实时的监控体系,建设服务依赖的降级系统,建设具有冗余能力的架构体系,从整体架构层面做服务保障,这样可以避免将精力投入到某个特定环节中,而忽略了整体,而且架构层面一定具有冗余性,以便在出现突发情况时,有备份方案可选,将应用切割到备用系统上来,避免出现应用中断的情况。如果在服务保障期间,仍出现了较严重的应用中断事件,那服务保障工作就是彻底的失败。
第三,要丰富服务保障工具,现在的数据中心应用业务越来越复杂,简单地靠PING、TRACERT等命令有时也很难判断问题,尤其是应用层面的问题,所以有必要引入一些排查和监控的工具。正所谓“巧妇难为无米之炊”,工欲做其事,必先利其器,手上需要有一些独门“暗器”,在关键时候能发挥效用。现在工具已经从纯手工,经历工具化、系统化,直至容器化和弹性调度上,什么Scribe、Wtool等免费监控的管理工具都可以派上用场,要善于使用这些工具,通过这些工具对数据中心运行各种数据参数进行分析,服务保障才更有效。
第四,要关注新技术。每一次的服务保障都是发现数据中心隐患和弱点的最好时机,有时甚至要在服务保障之前做演练,以便能提前暴露隐患,及时进行纠正。当遇到一些困难时,要看是否有些新技术可以很好解决。现在数据中心的技术更新换代很快,这些新技术都是应对数据中心发展过程中遇到的新情况,当自己的数据中心也遇到这些问题时不妨考虑引入一些新技术解决问题。数据中心是当今信息技术发展的写照,不能墨守陈规,需改变的时候就是要做出改变。引进新的技术,不仅让自己的数据中心有耳目一新的感觉,也可以提升数据中心的应用处理能力。当然,引入这些新技术时也要保留谨慎,特别新的不成熟的技术要充分考虑引入风险,是否适得其反。在引入新技术的道路上,不能一下子步子迈得太大,要小碎步地快速向前跑,最终利用新技术的优势解决数据中心面临的各种问题。
最后,数据中心要做服务保障需要投入大量人力,有时单靠数据中心自己有些力不从心,毕竟有很多系统和设备都不是数据中心运维的人员所能掌握的,这时可以按照事情的重要性,请一些专门提供第三方服务的专业公司人员来数据中心做服务保障。这些服务公司有着丰富的服务保障经验,将任务交由这些公司来做,花钱省心,而且万一出了什么差错,还可以获得一些补偿。数据中心还可以将系统或设备厂商的人请来做服务保障,数据中心每年采购大量的设备,有时还会购买原厂人员服务,这些在服务保障时都可以用上。所做这些虽然投入的资金和人力会多一些,但在应对突发事情的处理能力上将大为提高。数据中心应该将各种内外部资源都充分利用上,做好服务保障工作。
以上介绍的是数据中心服务保障的五个原则,依据这五个原则指导服务保障的实际工作,将大大提升服务保障的质量。数据中心上的应用在特定时段特别重要,关键时刻不能掉链子,必须依仗这五个原则,切实做好服务保障工作。
推荐阅读
-
35 岁实现财务*,腾讯程序员手握2300万提前退休?-1000万房产、1000万腾讯股票、加上300万的现金,一共2300万的财产。有网友算了一笔账,假设1000万的房产用于自住,剩下1300万资产按照平均税后20-50万不等进行计算,大约花上26-60年左右的时间才能赚到这笔钱。也就是说,普通人可能奋斗一辈子,才能赚到这笔钱。在很多人还在为中年危机而惶惶不可终日的时候,有的人的35岁,就已经安全着陆,试问哪个打工人不羡慕?但问题是有这样财富积累必然有像样的实力做靠山。没有人可以不劳而获。 看到这里,肯定有人说,那么对于普通人来说,卷可能真就成了唯一的出路。但是卷也有轻松的卷,“偷懒”的卷法,对于程序员而言,刨除掉一时无法改掉的开会传统占用的大部分时间,如何把有限的时间和精力放在真正重要的架构设计、需求设计上,而不是重复的造*,编码、改bug、手动测试。因此在科技改变生活的今天,学会使用AI工具成为程序员们的必备技能。 以全栈式全自动的软件开发工具飞算SoFlu软件机器人为例,作为全球首款面向微服务架构设计和最佳实践的软件机器人,SoFlu软件机器人改变了原来手工编码的作业模式,通过可视化拖拽方式以及参数配置就能实现等同于编写复杂代码的业务逻辑,在设计业务逻辑时就完成了微服务应用开发,做到“业务即图,图即代码”,实现“软件开发,十倍提效”。 而作为飞算SoFlu软件机器人的一个重要组成部分,FuncGPT(慧函数)支持所有类型函数创建。通过自然语言描述Java函数需求,实时生成高质量、高可读性的Java函数代码。生成代码可直接复制到IDEA,或一键导入Java全自动开发工具函数库。 FuncGPT(慧函数)具有五大核心能力: ● 自然语言:通过自然语言即可生成函数,降低软件开发门槛。 ● 秒级函数开发:全自动秒级开发函数,秒级完成,效率千倍提升。 ● 一站式函数开发应用:函数生成即可直接应用,效率、安全有保障。 ● 质量可靠:生成的函数代码符合业界规范、具备良好的可读性,符合最优解。 ● 灵活生成:可以根据开发人员的具体需求生成并支持调整和修改。 以“将文件流转换为File对象”这个需求为例,以下是FuncGPT(慧函数)秒级生成的代码: / 类名:FileConverter // 函数名:convertStreamToFile // 函数功能:将文件流转换为File对象 // POM依赖包:无 import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; public class FileConverter { /** * 将文件流转换为File对象 * @param inputStream 文件流 * @param filePath 文件路径 * @param fileName 文件名 * @return 转换后的File对象 * @throws IOException 如果发生I/O异常 */ public static File convertStreamToFile(InputStream inputStream, String filePath, String fileName) throws IOException { File file = new File(filePath + File.separator + fileName); // 创建File对象 try (FileOutputStream outputStream = new FileOutputStream(file)) { // 创建文件输出流 byte buffer = new byte[1024]; int bytesRead; while ((bytesRead = inputStream.read(buffer)) != -1) { // 从文件流读取数据并写入文件 outputStream.write(buffer, 0, bytesRead); } } return file; // 返回转换后的File对象 } } // 函数示例 // 将文件流转换为File对象示例 // 入参:inputStream,文件流 // 入参:filePath,文件路径 // 入参:fileName,文件名 // 出参:file,转换后的File对象 // 调用示例: // InputStream inputStream = new FileInputStream("example.txt"); // String filePath = "C:\\Users\\User\\Documents"; // String fileName = "example.txt"; // File file = FileConverter.convertStreamToFile(inputStream, filePath, fileName); // System.out.println(file.getAbsolutePath); // 输出结果:例如,将文件流转换为File对象后,文件的绝对路径为:C:\Users\User\Documents\example.txt // 则输出结果为:C:\Users\User\Documents\example.txt 通过分析,不难发现以上代码:
-
小红书大产品部架构 小红书产品概览--经过性能、稳定性、成本等多个维度的详细评估,小红书最终决定选择基于腾讯云星海自研硬件的SA2云服务器作为主力机型使用。结合其秒级的快速扩缩、超强兼容和平滑迁移能力,小红书在抵御上亿次用户访问、保证系统稳定运行的同时,也实现了成本的大幅降低。 星海SA2云服务器是基于腾讯云星海的首款自研服务器。腾讯云星海作为自研硬件品牌,通过创新的高兼容性架构、简洁可靠的自主设计,结合腾讯自身业务以及百万客户上云需求的特点,致力于为云计算时代提供安全、稳定、性能领先的基础架构产品和服务。如今,星海SA2云服务器也正在为越来越多的企业提供低成本、高效率、更安全的弹性计算服务。 以下是与小红书SRE总监陈敖翔的对话实录。 问:请您介绍一下小红书及其主要商业模式? 小红书是一个面向年轻人的生活方式平台,在这里,他们发现了向上、多元的真实世界。小红书日活超过 3500 万,月活跃用户超过 1 亿,日均笔记曝光量达 80 亿。小红书由社交平台和在线购物两大部分组成。与其他线上平台相比,小红书的内容基于真实的口碑分享,播种不止于线上,还为线下实体店赋能。 问:围绕业务发展,小红书的系统架构经历了怎样的变革和演进? 系统架构变化不大,影响最深的是资源开销。过去三年,资源开销大幅增加,同比增长约 10 倍。在此背景下,我们努力进行优化,包括很早就开始使用 K8S 进行资源调度。到 18 年年中,绝大多数服务已经完全实现了容器化。 问:目前小红书系统架构中的计算基础设施建设和布局是怎样的? 我们目前的建设方式可以简单描述为星型结构。腾讯云在上海的一个区是我们的计算中心,承载着我们的核心数据和在线业务。在外围,我们还有两个数据中心进行计算分流,同时承担灾备和线上业务双活的角色。 与其他新兴电子商务互联网公司类似,小红书的大部分计算能力主要用于线下数据分析、模型训练和在线推荐等平台。随着业务的发展,对算力的需求也在加速增长。
-
主页 数据中心 - 私有云服务器的定义和选择
-
数据中心机房的六大服务保障 - 数据中心机房的服务保障:环境保障
-
如何做好国庆、中秋节前的系统服务保障?
-
数据中心服务保障的五项原则
-
综合服务保障体系:让您的企业 "如鱼得水
-
揭秘SaaS中国成功企业的开源服务保障体系
-
阿里云高安全服务器的安全保障及方法
-
移动云加强全方位云网保护,守护数字中国发展 - 新增云安全中心涵盖终端安全,整合EDR的查杀、预警、应对及溯源功能,实现终端安全管理一体化。它能迅速定位并处理各类网络威胁,如病毒、入侵和新漏洞,减少人工应对负担。EDR在HVV行动中是关键防护,能在终端建立坚固防线,阻止威胁扩散,并协同其他产品追踪攻击链路。 态势感知全面覆盖监控、审计、运维、评估和预警等多个方面,针对混合云环境,提供统一业务安全管理、全面安全信息收集、智能安全事件关联分析以及系统性能与可用性的全面检测,满足等保标准、安全运营、数据保护和重要时期的保障需求。 云堡垒机推出全新混合云版本,支持混合云、私有云及客户自建平台部署,专为运维资源管理和审计提供安全保障。安全资源池行业版则针对于私有云和行业云,提供定制化的场景化安全合规整体解决方案,并可根据需要提供改造、统一管理、远程更新等一系列配套服务。 共同构建安全、便捷且高效的远程办公环境。