欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

深度学习架构:MOE 架构-1.MOE 的核心理念

最编程 2024-10-15 07:47:14
...

MOE的基本思想是将模型划分为多个专家网络,每个专家是一个子模型,而不是所有子模型都参与计算。

对于每个输入样本,模型会选择一小部分专家来处理输入,而其他专家保持不激活。

这个选择过程由一个门控网络(gating network)控制,它根据输入样本决定最相关的专家。

主要组件

  • 专家(Expert):多个独立的神经网络子模型,可以是全连接层、卷积层、Transformer层等。
  • 门控网络(Gating Network):门控网络根据输入动态地选择参与计算的专家子集。每个输入都可能激活不同的专家子集。