... 2024-11-29 21:50 .. 5和LLaVA-NeXT中存在的图像过度放大问题进行了改进。
此外,为了应对手机NPU在处理长输入token时的性能限制,BlueLM-V-3B还引入了token降采样的方案,以确保模型在移动设备上的顺利部署。
动态分辨率算法改进:为了提升多模态模型应对高分辨率图片的能力,主流的MLLM往往采用动态分辨率的方案进行图片的放缩和裁切。
该团队发现主流动态分辨率方案,如LLaVA-NeXT和InternVL1.5往往伴随图片过度放大。
传统的动态分辨率方案往往会选择一个分辨率(如384x384)作为基准尺寸,并选择合适的长宽比对图像进行缩放。
对于LLaVA-NeXT,给定一个分辨率为394×390的图像,它会选择2:2的图片比例,然后将原始图像调整并填充至768×768(放大4倍)。
对于InternVL1.5,给定一个分辨率为380×76的图像,它会选择5:1的比例,直 .. UfqiNews ↓
1
本页Url
🤖 智能推荐