深度学习架构:MOE 架构-1.MOE 的核心理念
最编程
2024-10-15 07:47:14
...
MOE的基本思想是将模型划分为多个专家网络,每个专家是一个子模型,而不是所有子模型都参与计算。
对于每个输入样本,模型会选择一小部分专家来处理输入,而其他专家保持不激活。
这个选择过程由一个门控网络(gating network)控制,它根据输入样本决定最相关的专家。
主要组件
- 专家(Expert):多个独立的神经网络子模型,可以是全连接层、卷积层、Transformer层等。
- 门控网络(Gating Network):门控网络根据输入动态地选择参与计算的专家子集。每个输入都可能激活不同的专家子集。