新型多模态大模型架构Ovis

当前开源多模态大语言模型（MLLM）大多并非从头训练整个模型，而是借助预训练的LLM和视觉Transformer来构建文本和视觉模块。这两个模块采用不同的嵌入策略：文本嵌入是从LLM的嵌入查找表中索引得到的，其中文本词表的每个“单词”通过独热文本token映射到一个嵌入向量。相比之下，视觉嵌入通常由视觉编码器经MLP连接器投影后以非结构化方式直接生成。虽然基于MLP连接器的MLLM在许多任务上取得了不错的成绩，但由于模态间嵌入策略的结构性差异，这种架构存在潜在的局限性。一个自然而然的问题是：如果像文本嵌入那样，以结构化的方式生成视觉嵌入，能否进一步提升MLLM的性能？为了探究这个问题，我们提出了一种名为Ovis (Open VISion)的新型MLLM架构。Ovis借鉴了LLM中的文本嵌入策略，引入了可学习的视觉嵌入表，将连续的视觉特征先转换为概率化的视觉token，再经由视觉嵌入表多次索引加权得到结构化的视觉嵌入。在权威评测榜单OpenCompass上，仅拥有10B参数的Ovis1.6-Gemma2-9B模型的综合指标位居30B以下开源模型首位，充分体现了Ovis架构的优越性。

Attendee Ratings

Related Agenda