↖  彻底改变语言模型:全新架构TTT,ML模型代替RNN隐藏状态..


-loading- -loading- -loading-

听音频 🔊 . 看视频 🎦

... 2024-07-09 18:50 .. TTT)层。
    研究团队引入两个简单的实例:TTT-Linear和TTT-MLP,其中隐藏状态分别是线性模型和两层MLP。
    TTT层可以集成到任何网络架构中并进行端到端优化,类似于RNN层和自注意力。
    为了让TTT层更加高效,该研究采取了一些技巧来改进TTT层:首先,类似于在常规训练期间对小批量序列采取gradientstep以获得更好的并行性,该研究在TTT期间使用小批量token。
    其次,该研究为每个TTT小批量内的操作开发了一种双重形式,以更好地利用现代GPU和TPU。
    双重形式的输出与简单实现等效,但训练速度快了5倍以上。
    如图3所示,TTT-Linear在8k上下文中比Transformer更快,与Mamba相当。
    研究团队认为:所有序列建模层都可以看作将历史上下文存储到隐藏状态,如图4所示。
    例如,RNN层(如LSTM、RWKV和Mamba层)将上下文压缩为跨时间 .. UfqiNews 2

朋友圈的风景:美妙时光美景风光:山河湖水人文城市-17

本页Url


👍4 仁智互见 👎0
  • 还没有评论. → +评论
  • -loading- -loading- -loading-


    🤖 智能推荐

    -loading- -loading- -loading-


    人类医学史上伟大的发明

    性感美女魔鬼身材天使脸庞:

    我在美国华盛顿州做总统大选

    机器会思考吗? 计算机科学

     


    + 龙桥 龙桥
    AddToFav   
    常在 经典 官宣