您现在的位置是：首页

深度学习神器 Deepytorch：为生成式AI和大型模型打造的加速器，让你体验前所未有的性能提升！

最编程 2024-08-10 18:05:09

...

stable diffusion v2.1（模型训练方法：dreambooth）

1 x 1

batch size=5
fp16

提升22%

stable diffusion v2.1（模型训练方法：dreambooth）

1 x 1

batch size=5
fp16
8-bit optimizer

提升21%

LLaMa-7B

2 x 8

ZeRO stage 1
micro batch size=4

提升15%

LLaMa-13B

2 x 8

ZeRO stage 2
micro batch size=2

提升29%

LLaMa-30B

2 x 8

ZeRO stage 3
micro batch size=4
activation recomputing

提升98%

LLaMa-65B

2 x 8

ZeRO stage 3
micro batch size=8
activation recomputing
params offload

提升30%

易用性好

Deepytorch具有充分兼容开源生态等特点，其兼容PyTorch主流版本，支持主流分布式训练框架。例如DeepSpeed、PyTorch FSDP或Megatron-LM等。
使用Deepytorch时，仅需在Python训练代码中添加如下适配代码即可。

导入Deepytorch库的示例代码：

import deepytorch as dpt

封装训练模型的示例代码：

dpt.compile

二、特性说明

Deepytorch在AI训练的通信和计算方面具有显著的加速效果，具体说明如下：

通信侧优化特性

单机优化

单机内的优化主要针对不同硬件拓扑机型的通信优化。以PCIe互连的机型和NVLink互连的机型为例，具体说明如下：

PCIe互连拓扑优化：该机型的多GPU卡之间共享PCIe带宽，通信容易受限于物理带宽。针对PCIe互连拓扑的通信优化，可以采用基于流水线的PS（Parameters Server：参数服务器）模式梯度规约算法CPU-Reduce来降低通信耗时，该算法按照GPU到CPU再到GPU的顺序构建流水线，将梯度规约的计算分散到多个设备上运行，来减少通信瓶颈。

例如，在通信数据量超过4 MB的场景下，PCIe互连拓扑优化方案相比NCCL原生在性能上提升了20%以上。

NVLink互连拓扑优化：NCCL默认使用的Binary-Tree算法在V100机型上并不能充分发挥多通道性能。针对NVLink互连拓扑的通信优化，可以通过扩展单机内部不同的N-Trees拓扑结构组合，实现拓扑调优并充分发挥多通道性能。

例如，在通信数据量超过128 MB的场景下，NVLink互连拓扑优化方案相比NCCL原生在性能上提升了20%以上。

多机优化

多机优化体现在通信算子编译优化、TCP多流优化、多机CPU-Reduce优化三个方面，具体说明如下：

通信算子编译优化：针对阿里云上不同机型，以及网卡与GPU的不同拓扑连接等特点，相比较基于全局拓扑结构实现的Allreduce、Allgather或Reduce-scatter等算法，Hybrid+算法支持单机和多机的分层通信，充分利用单机内部高速带宽的同时降低了多机之间的通信量，通信算子编译优化方案相比NCCL原生在性能上提升了50%以上。
通信多流优化：通常情况下，因网络带宽没有被充分利用，会导致上层集合通信算法的跨机性能无法达到最优。而采用基于TCP/IP的多流功能，提升分布式训练的并发通信能力，可以实现多机训练性能提升5%~20%。
多机CPU-Reduce：该优化继承了单机内CPU-Reduce高效的异步流水线，并将跨机Socket通信也设计为流水线形态，实现多机通信全过程流水化，有效减少通信延迟，提高整体训练性能。

例如，在通信量较大的Transformer-based模型的多机训练场景下，多机CPU-Reduce优化方案可将端到端性能进一步提升20%以上。

计算侧优化特性

Deepytorch针对Pytorch 2.x的编译优化组件进行了性能和鲁棒性方面的增强，其特性说明如下：

对TorchDynamo的字节码转换逻辑进行了鲁棒性方面的增强。如果Pytorch 2.x的编译优化组件无法成功处理字节转换，则会导致抓取的计算图被分割（即Graph Break），而使用Deepytorch能够有效避免该现象，并可以对Guard的性能进行优化。
对AOT Autograd进行了优化，显著地提升了Memory Format不一致场景下的训练性能。
对TorchInductor进行了优化，对部分算子（例如SDPA算子）带来额外的性能提升。
针对Stable Diffusion训练场景提供定制化的性能优化方案，能够在多种训练配置下无感地提升训练性能。
针对基于DeepSpeed ZeRO的LLM微调训练场景提供了定制化的性能优化方案，能够在多种ZeRO配置下无感地提升训练性能。

好啦！小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽，请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

网络异常，图片无法展示

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

上一篇：阿里云推出免费试用平台，企业用户可享一个月试用期

下一篇：如何解决国外用国内应用出现卡顿的问题？对海外回国加速器的安全性进行评测！