↖  微软让MoE长出多个头,大幅提升专家激活率..


微软让MoE长出多个头,大幅提升专家激活率

听音频 🔊 . 看视频 🎦

... 2024-05-15 04:00 .. MH-MoE能优化几乎所有专家,从而可以缓解专家激活率低的问题并大幅提升更大专家的使用率,如图1a所示实现了90.71%的激活率,这能让模型能力获得更高效的扩展。
    具有更细粒度的理解能力。
    MH-MoE采用的多头机制会将子token分配给不同的专家,从而可以联合关注来自不同专家的不同表征空间的信息,最终获得更好更细粒度的理解能力。
    举个例子,如图1b的明亮区域所示,子token会被分配给更多样化的一组专家,这有助于捕获语义丰富的信息。
    可实现无缝整合。
    MH-MoE实现起来非常简单,而且与其它SMoE优化方法(如GShard)无关,反而可以将它们整合起来一起使用以获得更好的性能。
    方法图3给出了MH-MoE的整体架构,其使用了多头机制将每个token分拆为子token,然后将这些子token路由给不同的专家。
    多头混合专家为了能清楚说明,这里仅描述单层MH-MoE。
    首先, .. UfqiNews 1

-loading- -loading- -loading-

本页Url


👍7 仁智互见 👎0
  • 还没有评论. → +评论
  • -loading- -loading- -loading-


    🤖 智能推荐

    -loading- -loading- -loading-


    2024年全球最畅销药物排

    你因为什么事情报过警? 超

    投资人切记的核心: 安全边

    一个考公务员的外地女孩死在

     


    + 八宝山 八宝山
    AddToFav   
    常在 经典 官宣