↖  200万上下文窗口创飞Gemini 1.5!微软来砸谷歌场子了..


200万上下文窗口创飞Gemini 1.5!微软来砸谷歌场子了

听音频 🔊 . 看视频 🎦

... 2024-02-26 09:10 .. 研究人员使用Proof-pile和PG19数据集来进行测试。
    LongRoPE在4k-256k的文本长度上,整体上显示出困惑度下降的趋势,优于基准。
    LongRoPE在Proof-pile数据集上的表现即使在上下文窗口长度是标准长度16倍的条件下,LongRoPE-2048k模型在256k上下文长度内也超过了最新基线水平。
    LongRoPE在PG19数据集上的表现接下来上难度,从Books3数据集中随机选取20本书,每本长度超2048k,使用256k的滑动窗口。
    研究人员观察到2048k的LLaMA2和Mistral之间性能差异显著。
    在8k-128k的文本长度上二者均取得了与基线相当的或更优的困惑度。
    LLaMA2的困惑度随着文本长度的增加而逐渐下降,在1024k和2048k长度处略有上升,展示了较好的性能。
    不过,Mistral在较短的长度上胜过基线,但当文本长度超过 .. UfqiNews 1

-loading- -loading- -loading-

本页Url


👍4 仁智互见 👎0
  • 还没有评论. → +评论
  • -loading- -loading- -loading-


    🤖 智能推荐

    -loading- -loading- -loading-


    彼得林奇的成功投资-Pet

    中国士农工商分配机制团队机

    专制独裁统治者为何一定要禁

    中国地方警察异地远洋捕捞式

     


    + 侵权者 侵权者
    AddToFav   
    常在 经典 官宣