主要讲述了从语言大模型到多模态大模型的发展,重点介绍了复旦大学邱锡鹏教授团队,通过将所有连续信号离散化,将语音、图像、音乐等模态转化为类似语言的处理方式,实现了多模态大模型的跨模态理解和生成能力。
本文提出了一个基于多语言-视觉公共空间学习的多语言文本-视频跨模态检索模型,该模型能够简单有效地适用于多种人工标注语言或机器翻译语言所构建的不同场景的多语言环境,并通过对比学习机制提升模型鲁棒性和特征表示能力。
本文综述了多模态预训练模型(PTM)的研究现状,包括图像-文本PTM和视频-文本PTM,以及单流模型和双流模型两类数据融合方式,并介绍了M6、CPT、VideoBERT和AliceMind等模型在下游任务中的应用场景,并总结了多模态PTM面临的挑战和未来研究方向。
主要讲述了思源AI大模型,一个高效、多模态的基础模型,通过减少参数调整、动态适配和量化等技术,实现了低成本部署和跨模态交互,并展示了其在文本生成、图像识别、内容创作等任务上的应用潜力。