清华、浙大推GPT-4V开源平替！LLaVA、CogAgent等开源视觉模型大爆发

　　近期，GPT-4V的开源替代方案在中国的顶尖学府清华、浙大等的推动下，出现了一系列性能优异的开源视觉模型。其中，LLaVA、CogAgent和BakLLaVA是三种备受关注的开源视觉语言模型。

　　LLaVA是一个端到端训练的多模态大模型，它将视觉编码器和用于通用视觉和语言理解的Vicuna相结合，具备令人印象深刻的聊天能力。而CogAgent是在CogVLM基础上改进的开源视觉语言模型，拥有110亿个视觉参数和70亿个语言参数。

　　另外，BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型，已经在多个基准测试中优于LLaVA213B。这三种开源视觉模型在视觉处理领域具有极大的潜力。

　　LLaVA在视觉聊天和推理问答方面表现出接近GPT-4水平的能力。在视觉聊天方面，LLaVA的表现相对于GPT-4的评分达到了85%，在推理问答方面更是达到了92.53%的超过GPT-4的新SoTA。LLaVA在回答问题时，能够全面而有逻辑地生成回答，并且可以以JSON格式输出。

　　它不仅可以从图片中提取信息并回答问题，还可以将图片转化为JSON格式。LLaVA还可以识别验证码、识别图中的物体品种等，展现出了强大的多模态能力。在性能上接近GPT-4的情况下，LLaVA具有更高的成本效益，训练只需要8个A100即可在1天内完成。

　　CogAgent作为在CogVLM基础上改进的开源视觉语言模型，拥有更多的功能和性能优势。它支持更高分辨率的视觉输入和对话答题，能够处理超高分辨率图像输入。

　　CogAgent还提供了可视化代理的能力，能够返回任何给定任务的计划、下一步行动和带有坐标的具体操作。它还增强了与图形用户界面相关的问题解答功能，可以处理与网页、PC应用程序、移动应用程序等任何图形用户界面截图相关的问题。另外，通过改进预培训和微调，CogAgent还增强了OCR相关任务的能力。这些功能的提升使得CogAgent在多个基准测试上实现了最先进的通用性能。

　　BakLLaVA是使用LLaVA1.5架构增强的Mistral7B基础模型，具备更好的性能和商用能力。BakLLaVA在多个基准测试中优于LLaVA213B，并且可以在某些数据上进行微调和推理。虽然BakLLaVA在训练过程中使用了LLaVA的语料库，不允许商用，但BakLLaVA2则采用了更大的数据集和更新的架构，超越了当前的LLaVA方法，具备商用能力。

清华、浙大推GPT-4V开源平替！LLaVA、CogAgent等开源视觉模型大爆发

延展资讯