本议题主要介绍我们如何基于云原生大数据存储中间件 Vineyard 来打造高性能分布式KV Cache缓存中间件来加速LLM推理的效率,这一组件可以无缝接入不同的推理引擎,帮助LLM推理引擎获得超出显存容量的Prefix caching的能力。本议题中,我们将分享Vineyard LLM KV Cache的设计思路、不同场景的性能评估,以及我们在LLM推理系统中应用大数据中间件的体会。
本议题主要介绍我们如何基于云原生大数据存储中间件 Vineyard 来打造高性能分布式KV Cache缓存中间件来加速LLM推理的效率,这一组件可以无缝接入不同的推理引擎,帮助LLM推理引擎获得超出显存容量的Prefix caching的能力。本议题中,我们将分享Vineyard LLM KV Cache的设计思路、不同场景的性能评估,以及我们在LLM推理系统中应用大数据中间件的体会。