... 2024-05-19 19:40 .. 甚至还有人称,在GPT-4o诞生之后发布的非常扎实的研究,OOS将迎头赶上。
不过,目前Chameleon模型支持生成的模态,主要是图像文本。
缺少了GPT-4o中的语音能力。
网友称,然后只需添加另一种模态(音频),扩大训练数据集,「烹饪」一段时间,我们就会得到GPT-4o...?Meta的产品管理总监称,「我非常自豪能够给予这个团队支持。
让我们朝着让GPT-4o更接近开源社区的方向迈进一步」。
或许用不了多久,我们就得到了一个开源版的GPT-4o。
接下来,一起看看Chameleon模型的技术细节。
技术架构Meta在Chameleon的论文中首先表示:很多新近发布的模型依旧没有将「多模态」贯彻到底。
这些模型虽然采用了端到端的训练方式,但仍然单独对不同模态进行建模,使用分开的编码器或解码器。
如开头所述,这种做法限制了模型跨模态信息的能力,也难以生成包含任意形式信息的 .. UfqiNews ↓
9
本页Url
🤖 智能推荐