欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

展望 2024 年:中国人工智能算力能否引发高性能计算和大型模型训练的新革命?

最编程 2024-04-17 17:57:30
...

★算力;算法;人工智能;高性能计算;高性能;高互联;生成式人工智能;StableDiffusion;ChatGPT;CoPilot;文本创建;图像生成;代码编写;大语言模型;多模态大模型;预训练;边缘计算;液冷;HPC;冷板式液冷;Bard;AlphaGo;深度学习;AI服务器;GPU服务器;H100;A100;B100;X100;InfiniBand;L40S;PC;AI PC;PC集群; CoWoS; SoIC+CoWoS;MI300;PC farm


2023年是人工智能发展的重要转折年,企业正在从业务数字化迈向业务智能化。大模型的突破和生成式人工智能的兴起为企业实现产品和流程的革新提供了先进工具,引领产业迈入智能创新的新阶段。在这个新时代,企业不再仅关注如何增强智能化能力,而更加注重如何利用人工智能实现产品和流程的革新。


大模型和生成式人工智能的发展将引发计算范式、产业动能和算力服务格局的变革。未来,人工智能算力基础设施将向高性能和高互联等方向演进,以满足大规模参数和数据集的训练和调优需求。


从感知智能到生成式智能,人工智能算力需求迅速增长,推动了人工智能服务器市场的发展。全球人工智能硬件市场规模预计将从2022年的195亿美元增长到2026年的347亿美元,而中国市场的人工智能服务器市场规模预计在2027年将达到134亿美元。


中国市场对智能算力供给能力的衡量标准正在加速演变,从硬件性能转向应用效果。技术提供商需要以应用为导向、系统为核心,构建灵活可扩展的集群,提高算力利用率,以满足市场对资源需求。与此同时,人工智能技术的持续创新和落地将在知识管理、对话式应用、销售和营销、代码生成等领域带来广泛应用。


为什么要对算力的发展和预测进行研究呢?从科技创新的角度来看,算力是推动人工智能、大数据、物联网等技术发展的关键基础设施。具有世界领先水平的算力可以极大地促进我国在全球科技竞争中的地位,推动创新型国家建设的进程。对于经济发展来说,算力提升可以为产业互联网、智慧城市、智能制造等产业的发展提供强大的动力。随着算力的进一步增强,可以进一步优化产业链条,提高生产效率,拉动经济增长。另外,对于信息社会来说,日益增强的算力将进一步推进信息化进程,使信息化成为我国社会发展的重要驱动力。为公共服务、教育、医疗、交通等领域的信息化提供更好的基础支撑。蓝海大脑致力于为企业提供创新的智能化解决方案。在人工智能领域,通过不断创新和落地,为企业的数字化转型和算力提升提供有力支持。


网络异常,图片无法展示
|


中国人工智能算力发展现状


一、人工智能发展迈入新阶段


1、全球:生成式人工智能兴起,产业步入关键转折点


2023年人工智能经历破圈式发展,以ChatGPT、GitHub CoPilot和Stable Diffusion等生成式人工智能应用和工具为代表,极大地提升了文本创建、图像生成、代码编写和研发流程等工作智能体验,显著提高了生产力和生产水平。


大模型和生成式人工智能兴起表明人工智能正从特定任务如图像识别和语音识别迈向更为拟人的智能水平,具备自主学习、判断和创造等能力。对企业而言,关注点已从增加智能化转向如何利用人工智能实现产品和流程革新。大模型通过海量数据训练和模型调优,展现出更精准执行和更强大场景可迁移性,为元宇宙、城市治理、医疗健康、科学研究等综合复杂场景中广泛应用提供更为优越的解决方案。


网络异常,图片无法展示
|

全球企业对生成式人工智能的态度


当前,全球各国均致力于加强对大型模型和生成式人工智能的支持,推动人工智能技术迅速发展和广泛应用。以下是各国主要动向:


1)美国


一直在推动人工智能领域创新,通过支持基础和应用研究,建立在大模型和生成式人工智能方面的领先地位。白宫发布《国家人工智能研发战略计划》,鼓励持续创新,并强调在控制安全风险前提下推动人工智能应用。


2)欧洲


受多方面因素影响,欧洲地区对技术降本增效的关注度较高。然而,对生成式人工智能在安全和隐私方面存在较多顾虑,因此欧盟通过《人工智能法案》强调对透明度和风险评估要求,并加强对伦理和数据隐私监管。


3)亚太地区


亚太地区国家,如中国、印度、新加坡、韩国和日本,都在积极推进国家人工智能战略,着力推动大规模生成式人工智能项目实施。各国*通过投资和政策支持,推进人工智能在不同领域广泛应用。


4)中国


中国*大力支持生成式人工智能研究,企业和科研机构也在加速推动相关研究和应用。中国人工智能的发展在东南亚地区产生溢出效应,促使该地区相关产业发展。


针对复杂模型和大规模训练需求,市场对高性能计算资源需求不断提升。高算力、高互联、算力泛在性和多元化成为关键趋势,推动算力生态的开放和融合。


不同领域模型类型丰富多样,为企业业务智能化提供广泛可能性。大模型在创作、自动驾驶、零售、医疗和金融等领域展示强大的应用潜力,推动整个人工智能产业链发展。


网络异常,图片无法展示
|

生成式人工智能生态价值链图谱


二、人工智能算力及应用


1、算法和模型: 加速模型迭代以探索行业实践


人工智能的发展受大模型参数扩大推动,由技术领军企业如OpenAI、谷歌、Meta、微软等主导,千亿到万亿级参数大模型正迅速崛起,引领智能涌现的潮流。


1)大语言模型成为突破口


大语言模型在自然语言处理领域取得显著进展,支持翻译、文章生成、问题回答等任务。国内外企业不断尝试不同技术路线的大语言模型,但通用模型无法提供创新企业持续竞争力,因此垂直领域的数据、场景化模型优化和工程化解决方案成为关键。


2)多模态模型的升级


大模型技术发展推动多模态模型不断升级。多模态模型实现图像、文本、语音等模态的统一表示和相互生成,覆盖多个领域。头部企业在多模态大模型领域布局,并在通用性和子领域优化上不断提升体验和技术。


3)智能涌现受多因素影响


智能涌现不仅与参数量相关,还受模型设计、数据集、训练方法、模型架构、任务类型和计算资源等多方面因素影响。企业需根据任务和模型设计确定参数量,而算力服务商需要提供全方位服务,包括硬件、软件和算法,共同提高大模型准确性和可用性。


4)预训练大模型成为选择


预训练大模型是人工智能产业发展重要选择,通过大规模数据和知识预训练,结合应用场景微调,实现高效率“工业化”开发。


2、AI软件基础设施: 加速大模型的应用落地


人工智能持续发展离不开底层服务支撑和软件平台优化。尤其在大模型技术应用和应用落地过程中,面临着算力、数据、效果和成本等多维度挑战。


1)算力资源需求


大模型技术创新和应用要求海量的算力资源,尤其在分布式训练中,对于拥有大规模加速卡的人工智能服务器集群需求非常高。缺乏足够的算力资源将影响对大模型的高质量技术创新。


2)高效算力供给


大模型训练不仅需要庞大算力规模,还需要考虑算力平台设计的复杂性。大规模算力节点可能导致效率下降,因此在算力平台设计上需要考虑如何提高算力使用效率,以降低训练时长和算力成本。


3)优质数据服务


优质数据集对于训练高质量模型至关重要。在大模型预训练阶段,对数据进行精准、高效清洗、集成、变换和规约,提高数据质量,降低噪音和错误数据的影响,从而提升算法准确性和泛化能力。


此外,边缘计算对人工智能和机器学习的依赖度逐渐提高,成为未来发展趋势。边缘人工智能、5G边缘计算、边缘即服务等将在边缘计算技术中发挥重要作用。全球边缘人工智能基础设施的发展预计将呈现显著增长,成为边缘计算技术重要组成部分。


全球边缘人工智能基础设施处理器和加速器市场规模,2022-2027


3、配套设施:液冷有望成为算力中心标配,国产算力率先推进


液冷有望成为智算中心主流。随着AI计算、HPC计算等高性能计算需求的不断提升,CPU、GPU等计算芯片正朝着高算力和高集成方向发展,这同时导致了单颗计算芯片功耗的显著提升。目前,Intel的多款CPU芯片的热设计功耗(TDP)已经超过350W,而Nvidia的H100系列GPU芯片的TDP更高达700W。在通用服务器中,CPU/GPU等计算芯片的功耗占比约为50%左右,而在AI服务器中,计算芯片的功耗占比更高达80%以上。


CPU/GPU TDP 变化趋势


展望明年,运营商将迅速推进液冷技术的应用,计划在2024年进行规模测试。三大运营商此前联合发布《电信运营商液冷技术白皮书》,旨在加速液冷技术采用。按照白皮书的规划,2023年将重点进行技术验证,全面验证液冷技术的性能,以降低能源使用效率(PUE),并积累规划、建设与维护等技术能力。到2024年,运营商将启动规模测试,其中新建的数据中心项目将有10%进行规模试点应用液冷技术。到2025年,预计将有50%以上的数据中心项目应用液冷技术。


运营商液冷应用规划


目前,液冷方式主要以冷板式液冷为主导。冷板式液冷相对于其他液冷技术,改造难度低,成本可控,因此市场应用较为广泛。据IDC报告,截至2023年上半年,我国服务器中冷板式液冷的比例已达到约90%,而浸没式液冷的渗透率仅为10%。浸没式液冷的大规模应用仍然面临核心技术问题,需要解决冷却工质等方面的挑战。


液冷技术对比


4、人工智能算力服务和云: 根据算力需求优化服务模式


近年来,人工智能的广泛应用带来更高算力需求,推动算力提供方式的重大改变。企业IT基础架构逐渐从传统采购模式向公有云迁移,人工智能aaS服务成为用户便捷、快速部署应用的选择。然而,人工智能应用对算力提出更高要求,呈现出算力资源集中、技术门槛提高等特征。大模型和生成式人工智能的快速发展将为人工智能算力服务市场带来新机遇。


1)大模型训练和推理需要更大的算力投入,特别是生成式人工智能处于起步阶段,随着应用的普及,更多用户将投身其中。对于短期内不具备自建人工智能算力数据中心用户,使用算力服务成为理想选择。


2)超大规模云服务器提供商和人工智能解决方案提供商具有强大技术能力和大模型开发基础,能够进行快速迭代。人工智能算力服务有助于中小企业快速应用生成式人工智能技术,为业务发展提供迅速支持。


当前用户主要面临如何将人工智能技术应用到企业业务场景的挑战,需要合作伙伴的技术和时间投入,同时降低开发门槛,让人工智能更好地服务各行业。


5、应用:企业积极投入以满足大模型时代的应用需求


在人工智能单点技术应用方面,根据 2023年人工智能技术的应用现状调研的结果,计算机视觉仍为最主要的应用技术类型,以生物识别和图像技术为主,语音技术的应用程度紧随其后,而自然语言处理仍处在相对早期发展阶段,从调研的样本来看,已经采用的企业不超过三成,但从未来三年计划采用情况来看,自然语言处理类应用将快速落地,66%的企业表示将在未来三年采用该应用场景。


对于企业而言,人工智能对企业带来的价值正愈加显著,尤其体现在提高资产利用率、提高员工生产及研发效率、提升产品与服务三方面。据IDC调查显示,企业在未来三年由人工智能所产生的价值将大幅提升,尤其在提高资产利用率、降低人力成本、提升洞察力、提升决策速度和优化用户体验等几个方面。


人工智能目前及未来三年对企业产生的价值


生成式人工智能应用在2023年迅速发展,将为各行业带来更多机遇。不仅可以提高效率、质量和创新能力,还能加速实际应用的渗透,特别是在金融、制造、医疗等领域,为行业发展带来新的竞争优势。


1)金融行业


金融行业对人工智能投入迅速增加,主要集中在风险管控、反欺诈、基于RPA的流程自动化等方面。在大数据支持下,银行通过建立专属信贷评级和审批系统,显著降低借贷风险,提高效率,实现便捷化、智能化、绿色化的目标。


2)智能制造


人工智能的革新推动了制造业的发展,智能产线、预测性维护、自动化生产、运营优化和实时监控等应用场景得到广泛采用。未来,智能决策、远程操作以及生成式人工智能将加速在制造业的落地应用。


3)智能产线


实现产品性能和质量可视化预测,帮助企业优化生产计划和提高产品设计效率。


4)预测性维护


通过数据收集和分析,预测设备故障,减少停机时间,提高生产效率。


5)自动化生产


控制和优化生产线自动化过程,包括生产计划、机器参数调整和供应链管理。


6)运营优化和实时监控


通过大数据分析,揭示潜在问题,提供优化建议,实现生产过程的改进。


7)智能决策和远程操作


实现设备和生产线的自主决策和远程操作,提高自适应性和效率。


8)智慧医疗


人工智能在医疗行业广泛应用,影响医学诊断、患者监测、个性化治疗等方面。深度学习技术和大数据分析提高了医学图像的自动分析,实现了更准确的诊断,同时通过传感器和实时数据分析,提供个性化治疗建议,加速新药研发。


9)AI4S (人工智能应用于科学)


科学领域利用人工智能进行数据分析、实验模拟、新药研发等,推动科学研究取得更多阶段性成果。


中国人工智能应用场景发展,2023


三、AI 算力基建迎来高增


2023年上半年,OpenAI在AI领域崭露头角,推动一系列重要技术进展。


自然语言处理方面,ChatGPT和Google的Bard等对话机器人的问世显著促进该领域的发展,引领新一轮语言模型的涌现,使语言处理能力大幅提升。


自动机器学习(AutoML)方面取得进一步突破,实现对数据预处理和超参数调优等任务的自动化,有效缩短数据科学家的工作时间,提高工作效率。


生成式AI技术在上半年同样迎来成熟期,根据用户提示生成文本、图像等内容,广泛应用于创作和辅助工作领域。


深度学习算法不断改进,在图像分类、目标检测等任务上性能显著提升,已广泛运用于自动驾驶、医疗等行业。


为满足AI计算需求,边缘计算技术迎来进一步发展,使得数据处理更为实时高效,同时Google推出新一代TPU加速芯片。



1、人工智能经历低谷与繁荣后迎来爆发增长阶段


人工智能的发展经历三个关键阶段:推理期,知识期,机器学习期。

推理期指的是从20世纪50年代到70年代初,通过赋予机器逻辑推理能力,就能实现机器的智能。

知识期则是上世纪70年代,人们逐渐认识到判断和决策不仅需要推理能力,还需要大量知识。

机器学习期,从20世纪80年代开始,机器学习成为一个独立的学科领域,相关技术不断涌现。深度学习模型和AlphaGo等增强学习的雏形在这一时期被发明。尽管早期系统效果不理想,但是到2010年至今,语音识别和计算机视觉等领域取得巨大进展,围绕语音和图像等人工智能技术的创业公司大量涌现,实现从量变到质变的飞跃。


人工智能技术发展历程


2、全球AI市场快速升温,新AI应用不断涌现


全球AI市场在AI算法不断发展迭代的推动下呈现迅猛增长,带来新的AI应用不断涌现,并推动现有应用快速整合AI功能。据SensorTower数据,2023年上半年AI应用下载量同比增长114%,超过3亿次,创下2022年全年水平。ChatGPT、Lensa AI等AI应用备受用户认可,AI应用内购收入在2023年上半年同比增长175%,接近4亿美元,美国市场占据AI应用内购收入的55%。


3、算力需求高增,催生新经济增长点


生成式AI发展成为当前趋势,对算力需求显著提升,进而推动GPU需求增长。生成式AI整合GAN、CLIP、Transformer、Diffusion等算法,以及多模态等AI技术,数据、算力、算法是其不可或缺的三大关键。据TrendForce数据,生成式AI需要大量数据进行训练,尤其对高性能GPU需求巨大。以ChatGPT背后GPT模型为例,其训练参数从2018年的约1.2亿个增长至2020年的近1800亿个,以NVIDIA A100为计算基础,未来商用可能需要2万颗至3万颗GPU。


生成式AI算力不仅提升新兴产业发展,为传统产业转型升级提供支撑。算力融入传统制造业推动企业智能化改造和数字化转型,在新兴产业中算力的整合促进新业态、新模式、新应用发展,成为推动新兴产业增长的重要动力。算力释放数据等新型生产要素创新活力,云计算、大数据、区块链、元宇宙等的兴起都依赖于强大的算力。


Chatgpt潜在算力需求


算力发展全球格局


一、算力: AI 服务器渗透率提升,驱动计算、数通硬件需求


AI 芯片军备竞赛将持续推动产品升级,中长期供给或将多元化。中短期看,AI 模型发展、竞争仍将推升 AI 芯片出货量和规格;长期看,AI 芯片需求将注重投入产出比和总拥有成本(TCO),重心预估将从 AI 大模型训练转向 AI 垂直模型训练和 AI 推理。根据 Yole 报告,AI 服务器(含 GPU 及其他加速器)2028 年渗透率有望从 2023 年的接近 10%增至超过 18%,其中约 70%-75%为 GPU 服务器。


加速器服务器规模及 GPU 服务器占比(左侧百万部;右侧%)


1、训练算力端:英伟达一枝独秀,AMD、Intel 迎头追赶


英伟达占据AI训练领域主导地位,目前AI芯片市场份额达70%。其数据中心GPU产品A100和H100广泛应用于AI训练领域。英伟达在2023年11月推出H100的内存升级版本H200,同时预计在2024年推出B100,2025年推出X100,加速芯片升级的节奏,迭代周期缩短至1年。


在竞争对手方面,AMD预计在2024年服务器GPU订单将超过20亿美元,而Intel到2024年的服务器GPU订单也将达到20亿美元。尽管这两家公司明年服务器GPU出货有望增加,但全年总出货量可能仍然低于英伟达数据中心业务单季度规模。


英伟达数据中心 GPU 技术路线图


2、推理算力端:百舸争流,技术路线更加多元


AI推理算力需求相较于训练较低,主要是因为推理仅涉及前向计算,无需复杂的反复试错和参数调整。对于推理任务,可通过模型优化等手段在一定精度损失情况下减少算力需求。因此,GPU、CPU、FPGA和NPU等硬件都有适用的场景和机会。


英特尔第四代服务器CPU在AI推理性能上显著提升,尤其是Sapphire Rapids(2023)在ResNet-50基准测试中表现接近T4 GPU,性能提升有助于CPU在AI推理市场份额上取得竞争优势。


GPU在推理和模型微调方面具有差异化优势。对于头部客户,如Open AI和Meta,需要低延时解决方案,同时GPU资源也可以在空闲时分配给AI训练任务,提高硬件利用率。因此,A100、H100等GPU芯片仍然在AI推理任务中得到广泛使用。而英伟达的中端GPU L40S除适用于推理,还适合中等参数模型的微调训练。AMD、Intel等公司的旗舰