One Cache to Rules Them All: Efficient LLM KV Cache Middleware with Vineyard

Presentation开源 AI 分论坛(LLM方向)
🕒 ~
  • 何涛
    • 何涛
    • 阿里巴巴 - 通义实验室
    • 技术专家

Attendee Ratings

本议题主要介绍我们如何基于云原生大数据存储中间件 Vineyard 来打造高性能分布式KV Cache缓存中间件来加速LLM推理的效率,这一组件可以无缝接入不同的推理引擎,帮助LLM推理引擎获得超出显存容量的Prefix caching的能力。本议题中,我们将分享Vineyard LLM KV Cache的设计思路、不同场景的性能评估,以及我们在LLM推理系统中应用大数据中间件的体会。