国内大模型中,腾讯的混元大模型具备图片生成能力,并在语义理解、内容合理和画面质感方面进行了改善3。此外,北京大学和中山大学等机构研究者提出的统一视觉语言大模型Chat-UniVi,通过构建图片和视频统一表征,使得一个大型语言模型(LLM)能够在图片和视频的混合环境中进行语义理解45。这些模型都支持上传图片进行语义理解的功能。1
以上内容由AI搜集生成,仅供参考