混合专家系统（MoE）

混合专家系统（Mixture of Experts）原理：混合专家系统（MoE）是一种神经网络，也属于一种combine的模型。适用于数据集中的数据产生方式不同。不同于一般的神经网络的是它根据数据进行分离训练多个模型，各个模型被称为专家，而门控模块用于选择使用哪个专家，模型的实际输出为各个模型的输出与门控模型的权重组合。各个专家模型可采用不同的函数（各种线性或非线性函数）。混合专家系统就是将多个模

Zoe____

27748人浏览 · 2017-11-09 12:10:40

Zoe____ · 2017-11-09 12:10:40 发布

混合专家系统（Mixture of Experts）

原理：

混合专家系统（MoE）是一种神经网络，也属于一种combine的模型。适用于数据集中的数据产生方式不同。不同于一般的神经网络的是它根据数据进行分离训练多个模型，各个模型被称为专家，而门控模块用于选择使用哪个专家，模型的实际输出为各个模型的输出与门控模型的权重组合。各个专家模型可采用不同的函数（各种线性或非线性函数）。混合专家系统就是将多个模型整合到一个单独的任务中。

混合专家系统有两种架构：competitive MoE 和cooperative MoE。competitive MoE中数据的局部区域被强制集中在数据的各离散空间，而cooperative MoE没有进行强制限制。

对于较小的数据集，该模型的表现可能不太好，但随着数据集规模的增大，该模型的表现会有明显的提高。

定义X为Nd维输入，y为Nc维输出,K为专家数，$\lambda $为学习率：

(0...(c−1))for\ j\ in (0...(d-1))\ and\ i\ in\ (0...(c-1))

:
各专家输出为:

V_{ik}=w_{ik}x

(其中 $w_{ik}$ 为第k个专家模型对第i列输出的权重， $V_{ik}$ 为第k个专家对第i列的预测。（ $w_{ik}$ 添加了bias所以输出为d+1维）)

第k个专家输出均值为：

mk=∑i=0c−1Vikm_{k}=\sum_{i=0}^{c-1}V_{ik}

门限模块输出为：

gk=emkT∑kemkTg_{k}=\frac{e^{m_{k}^{T}}}{\sum_{k}e^{m_{k}^{T}}}

输出

y_i

通过softmax函数转成概率值为：

ysi=eyi∑ieyiy_{si}=\frac{e^{y_{i}}}{\sum_{i}e^{y_{i}}}

对于Cooperative MoE：

Δwik=λ(yi−ysi)gkx\Delta w_{ik}=\lambda(y_{i}-y_{si})g_{k}x

Δmk=λ(yi−ysi)(vik−ysi)gkx\Delta m_{k}=\lambda(y_{i}-y_{si})(v_{ik}-y_{si})g_{k}x

对于Competitive MoE：

Δwik=λfk(yi−yik)x\Delta w_{ik}=\lambda f_{k}(y_{i}-y_{ik})x

Δmk=λ(fk−gk)x\Delta m_{k}=\lambda (f_{k}-g_{k})x

yik=eVik∑ieViky_{ik}=\frac{e^{V_{ik}}}{\sum_{i}e^{V_{ik}}}

fk=gke∑iyilogyik∑lgle∑iyilogyikf_{k}=\frac{g_{k}e^{\sum_{i}y_{i}logy_{ik}}}{\sum_{l}g_{l}e^{\sum_{i}y_{i}logy_{ik}}}

实验结果：

不同数据集相同k值：

k=2使用线性数据集，采用SGD和FTRL两种训练方式，结果如下：
k=2使用非线性数据集，采用SGD和FTRL两种训练方式，结果如下：

相同数据集不同k值：

k=1:
k=2:
k=4:

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

Kaldi之父，IEEE Fellow，小米首席语音科学家Daniel Povey将出席2024全球机器学习技术大会并发表演讲！

CSDN学习社区

cover

探索神经网络在商品销售和图像识别中的应用

CSDN学习社区

cover

基于stm32F103的座面声控台灯

CSDN学习社区

所有评论(0)

查看更多评论

Zoe____

已为社区贡献1条内容