... 2024-05-15 04:00 .. MH-MoE能优化几乎所有专家,从而可以缓解专家激活率低的问题并大幅提升更大专家的使用率,如图1a所示实现了90.71%的激活率,这能让模型能力获得更高效的扩展。
具有更细粒度的理解能力。
MH-MoE采用的多头机制会将子token分配给不同的专家,从而可以联合关注来自不同专家的不同表征空间的信息,最终获得更好更细粒度的理解能力。
举个例子,如图1b的明亮区域所示,子token会被分配给更多样化的一组专家,这有助于捕获语义丰富的信息。
可实现无缝整合。
MH-MoE实现起来非常简单,而且与其它SMoE优化方法(如GShard)无关,反而可以将它们整合起来一起使用以获得更好的性能。
方法图3给出了MH-MoE的整体架构,其使用了多头机制将每个token分拆为子token,然后将这些子token路由给不同的专家。
多头混合专家为了能清楚说明,这里仅描述单层MH-MoE。
首先, .. UfqiNews ↓
2
本页Url
🤖 智能推荐