*和企业云平台的 "一云多核 "路线全景图
“一云多芯”成为政企云平台可被信赖的关键
近年来,“一云多芯”成为云计算领域的一个热词,不仅代表着云平台向着开放化标准化发展,也反应出政企守护“IT安全生命线”的刚性要求。狭义的“一云多芯”是指在一个云平台内可同时采用多种异构CPU等类型的国产芯片,而广义的“一云多芯”要求提供从CPU扩展到GPU、网络设备,以及各类行业生态应用、客户自建应用的全域兼容能力,能够支持云平台从建设、应用迁移、到运维管理的全生命周期的能力要求,助力客户构建安全可信的IT基础设施。
“一云多芯”的重要性不言而喻,然而企业在设计和实施“一云多芯”策略时,要遵循怎样的路线?又要通盘考虑哪些问题?本文将通过阿里云在政企云平台“一云多芯”的实践经验,为政企落地一云多芯战略提供更多参考。
“一云多芯”三步走,每步课题皆不同
以完整的应用上云过程作为主线,以“一云多芯”路线作为预设课题,云平台IT负责人的工作可以分为“云平台建设、应用迁移/上云、运维管理”三个阶段,分别有不同的需求和痛点。
1. “一云多芯”云平台建设
课题一:保障供应安全
供应链安全是政企建云时的重要考虑因素之一,“无硬件绑定、可按需选择硬件设备”是常见的基本要求。本着不把鸡蛋放在一个篮子里的原则,云平台需要兼容足够多的主流芯片及厂商整机,来保障政企具备可持续的供应链体系。
在此阶段,企业需要重点考察云平台对于国产硬件的支持能力,如CPU、GPU、国产网络设备等的兼容能力。另外,在云原生时代,全栈云产品被广泛采用,所以对于“多芯”的支持不能仅停留在部分云产品上,而应该拓展至全栈产品,才能在后续实际应用中显现出价值。
飞天企业版是阿里云为政企构建的基于飞天云计算操作系统的企业级云平台,其硬件兼容能力包括:
- CPU:支持一云6芯,具体包括intel、海光、鲲鹏、飞腾、倚天710等共6种芯片,支持近20家国产化芯片服务器厂商。以上芯片均支持全栈建云,用户可以根据需求进行灵活的多场景混部,从而获得持续的硬件供应链安全保障。
- GPU:支持NVDIA、海光DCU、寒武纪等主流芯片,且正在适配更多GPU。
- 网络设备:支持锐捷、华为、紫光恒越、迈普、中兴等国产网络设备。
课题二:设备在线替换
在建设全国产芯片云平台的过程中,很多企业已有一个或多个云平台,如果完全采用新建的方式,会面临“一次性投入巨大、业务跨云迁移复杂、浪费已有设备投资”等问题。企业迫切希望能以“低成本、低风险”的方式,分期、逐步实现全量替换。
针对这个需求,阿里云提出“在线替换技术”,企业不需要通过建设一朵全新的云平台来进行替换,而是在保证业务不停机的状态下,通过逐步提升原有云平台的国产硬件比例,直到实现最终的全量替换,从而用低成本和平稳的方式过渡到终态目标。这一技术的难点主要体现在两个方面:
- 高可用要求:产品需要具备集群内、跨集群迁移、多集群切流、RMA替换等多种场景下的高可用能力,对上层业务无影响或者影响极低。
- 成熟工具支撑:该方案需要完善的可视化工具体系支撑,如存储、数据库等跨集群迁移、RMA下线的自动化体系支撑。
经过多个版本的迭代实践与验证,阿里云飞天企业版已经具备了全栈产品的在线替换能力,目前已完成多个生产环境下intel芯片原地轮转替代项目,并形成了完整的方法论、工具集、实施流程与最佳实践,大大降低了企业建设国产云平台的总体投入成本。
课题三:支持普适场景
目前部分国产芯片在应对普通业务场景时游刃有余,但在面对一些对并发性能要求极高的重型应用、核心数据库场景时,却面临投入成本过高或者性能无法满足要求等问题,这也是很多企业在推进“一云多芯”时普遍存在的疑虑。因此,“一云多芯”解决方案应支持为“普通应用”和“性能型应用”提供兼可运行的普适环境。
为解决性能问题,阿里云CIPU架构应运而生,通过软硬一体的设计理念,自研神龙硬件和网络协议栈保证了国产芯片的高性能。在一些大型金融客户的业务场景所做的测试中,阿里云CIPU架构体现了如下优势:
- 零损耗不抖动:计算节点0损耗,不会发生“VM管控与VM上应用”因资源竞争导致的业务抖动、性能下降。
- 延时大幅下降:得益于自研的网络协议栈和硬件加速,相比普通KVM节点,节点间访问延时下降接近1倍。
- 极致存储性能:支持基于NVMe PR协议的共享盘,VPC网络、EBS存储采用芯片加速引擎实现快路径转发,单盘访问延时下降20-30%,大幅超越传统存储架构(KVM+Ceph/SAN存储等)。
- 降低整体TCO:借助“虚拟化0损耗、可用核数增加、应用间调用延时下降”等优势,同样机器规模可提供更大业务并发,能有效降低采购的总体设备数量,从而降低TCO。
2. 应用上云与迁移
在云平台建设完成之后,企业将进入应用部署、适配的上云阶段。由于面临异构指令集的场景,企业可能需要对应用进行适配,目标是平稳高效地完成迁移。
课题四:降低应用适配的成本与风险
企业应用一般可分为两类,一类是三方通用产品,另一类是客户自行开发的业务应用。
在三方通用产品迁移过程中,企业需要考察云平台的生态兼容性。比如针对业内较为常用的数据库、中间件、行业应用产品,阿里云成立了以“云”为载体的“生态认证中心”,提前与广大合作伙伴进行了各种芯片的兼容性互认证,来降低企业自行适配的复杂度和工作量,提升了企业应用迁移的效率。
对于企业自行开发的应用,迁移可能牵涉到代码的适配改造与性能调优,可利用迁云工具帮助IT人员简化迁移工作量。比如,在阿里云飞天企业版一站式迁云中心的工具体系里,集成了相关的跨平台工具:
- 跨平台代码扫描
阿里云飞天企业版提供从x86架构迁移到ARM等架构的代码迁移扫描能力,只需将应用代码上传到一站式迁云中心,即可获得一份完整的代码扫描报告,包含需要修改的代码内容、代码改造建议、总体工作量预估等,大大降低企业应用“黑盒适配”带来的试错成本。
- JVM代码调优
针对大量企业以java为主的情况,阿里云将自身多年来沉淀的跨平台JVM调优实践经验集成至一站式迁云中心的工具里,客户可以简单设置迁移前后的应用场景、基础配置等,平台会自动给出优化的建议措施,降低性能调优的复杂度。
- CentOS替换
针对CentOS停服场景,阿里云飞天企业版一站式迁云中心内置了CentOS迁移到国产Anolis的迁移评估工具。用户只需要在原有CentOS系统运行对应的agent,将对应生成文件上传一站式迁云中心,即可获得一份完整的OS迁移报告,提前了解和应对迁移风险项,高效完成CentOS的迁移。
3. 运维管理
在云平台建设、应用迁移上云完成之后,企业将进入探索“用好云”的阶段。这一阶段的核心课题是保障系统的稳定性,并基于“一云多芯”的环境不断提升运营运维效率。
课题五:因地制宜,发挥不同芯片的优势
由于不同芯片具备不同的架构和性能,企业需要基于芯片特点进行应用部署,比如将不同的芯片用于生产、测试、核心应用、普通应用等不同的场景中。这要求企业的云平台要具备可以基于不同芯片进行实例创建与管理的能力。
以创建Maxcompute项目为例,飞天企业版可以自动筛选出目前已部署的芯片集群,并将可选择的芯片提供给IT管理员选择创建,后续所有的相关计算、存储都可以基于芯片维度展开。
课题六:基于特定芯片的运维管理
经过一次或多次建设后,企业的云平台已经形成了多种芯片并存的局面,如何能够方便查看不同芯片在云平台的使用和分布情况成为很多客户运维中关注的重点。
飞天企业版帮助客户更直观、简单地掌控多芯的现状,如用户在实例界面可以清楚地看到目前实例的芯片类型:
在云管理平台首页,用户可以直观看到各种芯片服务器、云实例的统计,便于进行资源的宏观分析、调配与管理。
“一云多芯” —— 云计算是IT走向自主可控的关键路径
作为业内最早提出“一云多芯”概念的云计算厂商,阿里云明白政企选择“一云多芯”路线主要是为了应对未来的不确定性而“未雨绸缪”,所以阿里云也会站在未来,在软硬件生态方面坚定执行“开放兼容”的策略,长期为企业提供平等的多芯的选择。
如今,云原生趋势不可阻挡,其所带来的分布式特性,也能有效弥补单机芯片性能不足等问题。然而,云厂商在将其全栈产品适配多芯的过程中,也会面临更大的研发挑战。比如阿里云飞天企业版承载着80+云产品,每个云产品至少要适配6种芯片,还有各种容灾、备份等复杂场景,并需要基于市场需求进行迭代和升级。阿里云之所以可以从容应对,并不断提升“一云多芯”的产品技术水位,一方面得益于其完整的一云多芯工程化体系能力,从研发投入侧保障一云多芯战略的可持续性;另一方面,阿里云所具有的“自研产品/掌握核心代码”,是快速适配不同芯片、提升芯片性能表现的底气所在。阿里云飞天云计算操作系统、IaaS、中间件、数据库、大数据等全栈自研产品,在适配中具备内核级支持和改造能力,不依赖于开源社区,能有力支撑一云多芯战略的高效执行,从而成为政企“一云多芯”前进道路上的可靠伙伴。
目前,阿里云基于多年来在“一云多芯”领域的战略投入和布局,已在政务、金融、能源、电力、交通、医疗、通信、传媒等全行业累计了数百个成功实践。未来,阿里云将继续坚持“自主研发 + 全面兼容 + 普适开放”的理念,与政企一同实现各种复杂需求、复杂场景下的多芯混部,保护政企的供应链安全和业务平稳运行。
点击立即免费试用云产品 开启云上实践之旅!
原文链接
本文为阿里云原创内容,未经允许不得转载。
推荐阅读
-
*和企业云平台的 "一云多核 "路线全景图
-
小红书大产品部架构 小红书产品概览--经过性能、稳定性、成本等多个维度的详细评估,小红书最终决定选择基于腾讯云星海自研硬件的SA2云服务器作为主力机型使用。结合其秒级的快速扩缩、超强兼容和平滑迁移能力,小红书在抵御上亿次用户访问、保证系统稳定运行的同时,也实现了成本的大幅降低。 星海SA2云服务器是基于腾讯云星海的首款自研服务器。腾讯云星海作为自研硬件品牌,通过创新的高兼容性架构、简洁可靠的自主设计,结合腾讯自身业务以及百万客户上云需求的特点,致力于为云计算时代提供安全、稳定、性能领先的基础架构产品和服务。如今,星海SA2云服务器也正在为越来越多的企业提供低成本、高效率、更安全的弹性计算服务。 以下是与小红书SRE总监陈敖翔的对话实录。 问:请您介绍一下小红书及其主要商业模式? 小红书是一个面向年轻人的生活方式平台,在这里,他们发现了向上、多元的真实世界。小红书日活超过 3500 万,月活跃用户超过 1 亿,日均笔记曝光量达 80 亿。小红书由社交平台和在线购物两大部分组成。与其他线上平台相比,小红书的内容基于真实的口碑分享,播种不止于线上,还为线下实体店赋能。 问:围绕业务发展,小红书的系统架构经历了怎样的变革和演进? 系统架构变化不大,影响最深的是资源开销。过去三年,资源开销大幅增加,同比增长约 10 倍。在此背景下,我们努力进行优化,包括很早就开始使用 K8S 进行资源调度。到 18 年年中,绝大多数服务已经完全实现了容器化。 问:目前小红书系统架构中的计算基础设施建设和布局是怎样的? 我们目前的建设方式可以简单描述为星型结构。腾讯云在上海的一个区是我们的计算中心,承载着我们的核心数据和在线业务。在外围,我们还有两个数据中心进行计算分流,同时承担灾备和线上业务双活的角色。 与其他新兴电子商务互联网公司类似,小红书的大部分计算能力主要用于线下数据分析、模型训练和在线推荐等平台。随着业务的发展,对算力的需求也在加速增长。
-
供应链协同管理云平台系统研究需要什么设备 供应链信息协同-供应链协同的定义:供应链协同是指供应链全链条的各环节(包括上下游各企业及企业内各部门)实现协同运行的一系列活动或最终效果。即供应链全链条各节点确立共同目标,在互利共赢的基础上,深入合作、风险共担、信息共享、流程互通、共同创造客户价格的过程。 供应链协同的范围:供应链协同主要包括两个方面即:组织内协同和供需间协同。组织内协同指的是企业内的各个相关部门在共同目标的指引下相互协作,减少沟通障碍,打破部门墙,实现跨部门,跨体系的协同。如需求、设计、研发、计划、采购、库存、生产、仓储、物流、销售售后等基础活动以及财务、法务、人事等支持性活动间的协同;还包括战略与执行间的协同;企业总体目标、长期目标、年度目标间的协同等。 供需间协同是指供应链上下游的企业间共享重要信息,包括需求量、订单情况、库存情况、生产能力、销售数据等,上下游企业根据这些重点信息规划自己的生产、订单、销售、库存等的管理,避免各自为战、坐井观天。 供应链协同目标