... 2023-10-02 01:30 .. 所有数据集都与同一个大模型(LLaMA-2-70B-chat)对齐,从而实现了交错式多模态上下文提示。
本文利用跨三种模式(图像、视频和音频)的多模态指令集对模型进行了进一步微调,涵盖了简单QA领域之外的各种不受约束的任务。
该数据集具有高质量的人工收集指令数据,因此本文也将其作为复杂多模态推理任务的基准。
与现有文献中的模型相比,本文最佳模型在各种任务和模式的自动和人工评估中都取得了很好的零误差性能,在VQAv2上提高了7.0%的相对准确率,在零误差COCO图像字幕上提高了8.4%的CIDEr,在AudioCaps上提高了14.5%的CIDEr,创造了新的SOTA。
方法方法概览预训练模态对齐本文使用配对的多模态数据(特定模态信号和文本叙述)对LLM进行预训练,从而实现多模态理解能力,如图2所示。
具体来说,研究为每种模态训练一个轻量级适配器,将输入信号投射到特定L .. UfqiNews ↓
1
本页Url
🤖 智能推荐