欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

深度学习神器 Deepytorch:为生成式AI和大型模型打造的加速器,让你体验前所未有的性能提升!

最编程 2024-08-10 18:05:09
...

stable diffusion v2.1(模型训练方法:dreambooth)

1 x 1

  • batch size=5
  • fp16

提升22%

stable diffusion v2.1(模型训练方法:dreambooth)

1 x 1

  • batch size=5
  • fp16
  • 8-bit optimizer

提升21%

LLaMa-7B

2 x 8

  • ZeRO stage 1
  • micro batch size=4

提升15%

LLaMa-13B

2 x 8

  • ZeRO stage 2
  • micro batch size=2

提升29%

LLaMa-30B

2 x 8

  • ZeRO stage 3
  • micro batch size=4
  • activation recomputing

提升98%

LLaMa-65B

2 x 8

  • ZeRO stage 3
  • micro batch size=8
  • activation recomputing
  • params offload

提升30%

  1. 易用性好
import deepytorch as dpt
dpt.compile

二、特性说明

Deepytorch在AI训练的通信和计算方面具有显著的加速效果,具体说明如下:

  1. 通信侧优化特性

单机内的优化主要针对不同硬件拓扑机型的通信优化。以PCIe互连的机型和NVLink互连的机型为例,具体说明如下:

例如,在通信数据量超过4 MB的场景下,PCIe互连拓扑优化方案相比NCCL原生在性能上提升了20%以上。

例如,在通信数据量超过128 MB的场景下,NVLink互连拓扑优化方案相比NCCL原生在性能上提升了20%以上。

多机优化体现在通信算子编译优化、TCP多流优化、多机CPU-Reduce优化三个方面,具体说明如下:

例如,在通信量较大的Transformer-based模型的多机训练场景下,多机CPU-Reduce优化方案可将端到端性能进一步提升20%以上。

  1. 计算侧优化特性

Deepytorch针对Pytorch 2.x的编译优化组件进行了性能和鲁棒性方面的增强,其特性说明如下:


好啦!小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽,请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

网络异常,图片无法展示
|

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

上一篇: 阿里云推出免费试用平台,企业用户可享一个月试用期

下一篇: 如何解决国外用国内应用出现卡顿的问题?对海外回国加速器的安全性进行评测!

推荐阅读