↖  多模态版Llama2上线,Meta发布AnyMAL..


多模态版Llama2上线,Meta发布AnyMAL

听音频 🔊 . 看视频 🎦

... 2023-10-02 01:30 .. 所有数据集都与同一个大模型(LLaMA-2-70B-chat)对齐,从而实现了交错式多模态上下文提示。
    本文利用跨三种模式(图像、视频和音频)的多模态指令集对模型进行了进一步微调,涵盖了简单QA领域之外的各种不受约束的任务。
    该数据集具有高质量的人工收集指令数据,因此本文也将其作为复杂多模态推理任务的基准。
    与现有文献中的模型相比,本文最佳模型在各种任务和模式的自动和人工评估中都取得了很好的零误差性能,在VQAv2上提高了7.0%的相对准确率,在零误差COCO图像字幕上提高了8.4%的CIDEr,在AudioCaps上提高了14.5%的CIDEr,创造了新的SOTA。
    方法方法概览预训练模态对齐本文使用配对的多模态数据(特定模态信号和文本叙述)对LLM进行预训练,从而实现多模态理解能力,如图2所示。
    具体来说,研究为每种模态训练一个轻量级适配器,将输入信号投射到特定L .. UfqiNews 1

-loading- -loading- -loading-

本页Url


👍5 仁智互见 👎0
  • 还没有评论. → +评论
  • -loading- -loading- -loading-


    🤖 智能推荐

    -loading- -loading- -loading-


    中国地方警察异地远洋捕捞式

    网络平台算法典型问题治理

    Elon Musk马斯克发

    美国国务卿卢比奥在中国问题

     


    + 基本权利 基本权利
    AddToFav   
    常在 经典 官宣