... 2024-07-09 18:50 .. TTT)层。
研究团队引入两个简单的实例:TTT-Linear和TTT-MLP,其中隐藏状态分别是线性模型和两层MLP。
TTT层可以集成到任何网络架构中并进行端到端优化,类似于RNN层和自注意力。
为了让TTT层更加高效,该研究采取了一些技巧来改进TTT层:首先,类似于在常规训练期间对小批量序列采取gradientstep以获得更好的并行性,该研究在TTT期间使用小批量token。
其次,该研究为每个TTT小批量内的操作开发了一种双重形式,以更好地利用现代GPU和TPU。
双重形式的输出与简单实现等效,但训练速度快了5倍以上。
如图3所示,TTT-Linear在8k上下文中比Transformer更快,与Mamba相当。
研究团队认为:所有序列建模层都可以看作将历史上下文存储到隐藏状态,如图4所示。
例如,RNN层(如LSTM、RWKV和Mamba层)将上下文压缩为跨时间 .. UfqiNews ↓
2
本页Url
🤖 智能推荐