本议题主要介绍我们如何基于云原生大数据存储中间件 Vineyard 来打造高性能分布式KV Cache缓存中间件来加速LLM推理的效率,这一组件可以无缝接入不同的推理引擎,帮助LLM推理引擎获得超出显存容量的Prefix caching的能力。本议题中,我们将分享Vineyard LLM KV Cache的设计思路、不同场景的性能评估,以及我们在LLM推理系统中应用大数据中间件的体会。
当前,大语言模型和多模态大模型正逐步成为推动技术创新和应用的关键力量。然而,如何有效整合这些多元的模型,特别是在多模态领域,以提供简洁且统一的微调到部署全流程的接口,是一项棘手的挑战。 ms-swift是魔搭社区提供的大模型与多模态大模型微调部署框架,现已支持400+大模型与100+多模态大模型的训练(预训练、微调、人类对齐)、推理、评测、量化与部署。其中大模型包括:Qwen2.5、Llama3.2、GLM4、Internlm2.5、Yi1.5、Mistral、Baichuan2、DeepSeek、Gemma2等,多模态大模型包括:Qwen2-VL、Qwen2-Audio、Llama3.2-Vision、Llava、InternVL2、MiniCPM-V-2.6、GLM4v、Xcomposer2.5、Yi-VL、DeepSeek-VL、Phi3.5-Vision等。 除此之外,ms-swift汇集了最新的训练技术,包括LoRA、QLoRA、Llama-Pro、LongLoRA、GaLore、Q-GaLore、LoRA+、LISA、DoRA、FourierFt、ReFT、UnSloth、Megatron和Liger等。ms-swift支持使用vLLM和LMDeploy对推理、评测和部署模块进行加速。为了帮助研究者和开发者更轻松地微调和应用大模型,ms-swift还提供了基于Gradio的Web-UI界面及丰富的最佳实践。
面向开发者深入讨论如何在云中构建高性能生成式AI应用。包括传统开发的工具及工作方式在生成式AI时代将会有哪些新的选择和改变。云上构建生成式AI应用实践。以及生成式AI应用的可靠性和安全性保障。
当前开源多模态大语言模型(MLLM)大多并非从头训练整个模型,而是借助预训练的LLM和视觉Transformer来构建文本和视觉模块。这两个模块采用不同的嵌入策略:文本嵌入是从LLM的嵌入查找表中索引得到的,其中文本词表的每个“单词”通过独热文本token映射到一个嵌入向量。相比之下,视觉嵌入通常由视觉编码器经MLP连接器投影后以非结构化方式直接生成。虽然基于MLP连接器的MLLM在许多任务上取得了不错的成绩,但由于模态间嵌入策略的结构性差异,这种架构存在潜在的局限性。一个自然而然的问题是:如果像文本嵌入那样,以结构化的方式生成视觉嵌入,能否进一步提升MLLM的性能?为了探究这个问题,我们提出了一种名为Ovis (Open VISion)的新型MLLM架构。Ovis借鉴了LLM中的文本嵌入策略,引入了可学习的视觉嵌入表,将连续的视觉特征先转换为概率化的视觉token,再经由视觉嵌入表多次索引加权得到结构化的视觉嵌入。在权威评测榜单OpenCompass上,仅拥有10B参数的Ovis1.6-Gemma2-9B模型的综合指标位居30B以下开源模型首位,充分体现了Ovis架构的优越性。
CogVideoX 系列是智谱AI文生视频工具"清影"的开源版本,自发布以来因其高效推理性能和出色效果在社区引发广泛关注。最新升级的 CogVideoX-2B 模型实现了从单卡 A100 到 GTX 1080TI 等早期显卡的兼容运行,大幅降低了硬件门槛。本次分享将重点解析 CogVideoX 模型推理性能持续提升和消费级显卡适配的技术路径,为开发者拓展应用前景提供启发。
With AI's growing popularity, Kubernetes has become the de facto AI infrastructure. However, the increasing number of clusters with diverse AI devices (e.g., NVIDIA, Intel, Huawei Ascend) presents a major challenge. AI devices are expensive, how to better improve resource utilization? How to better integrate with K8s clusters? How to manage heterogeneous AI devices consistently, support flexible scheduling policies, and observability all bring many challenges The HAMi project was born for this purpose. This session including: * How K8s manages heterogeneous AI devices (unified scheduling, observability) * How to improve device usage by GPU share * How to ensure the QOS of high-priority tasks in GPU share stories * Support flexible scheduling strategies for GPU (NUMA affinity/anti-affinity, binpack/spread etc) * Integration with other projects (such as volcano, scheduler-plugin, etc.) * Real-world case studies from production-level users. * Some other challenges still faced and roadmap HAMi is currently the only sandbox project in the CNCF community that focuses on this areas.