LMCACHE:面向企业级大语言模型推理的高效KV Cache层

作者:Yihua Cheng 、Yuhan Liu 、 Jiayi Yao * 、Yuwei An、Xiaokun Chen、Shaoting Feng 、 Yuyang Huang、Samuel Shen、Kuntai Du、Junchen Jiang 单位:TensorMesh&芝加哥大学 摘要 如今的大语言模型(LLM)推理系统为简化设计,将各个推理引擎和请求独立处理,这导致了严重的资源效率低下问题。尽管已有相关方案提出通过跨请求复用KV Cache来避免冗余计算,并通过将单个请求拆分到不同推理引擎来提高 GPU 利用率,但这些方案的实现离不开 跨推理引擎与请求之间的高效KV Cache卸载和传输。本文提出 LMCACHE,首个且目前最高效的开源 KV Cache缓存解决方案。它能够提取并存储主流 LLM 推理引擎(vLLM 和 SGLang)生成的 KV Cache,并支持跨引擎、跨请求共享。LMCACHE 在 LLM 引擎接口中暴露 KV…

https://blog.lmcache.ai/zh/2025/11/24/lmcache%e9%9d%a2%e5%90%91%e4%bc%81%e4%b8%9a%e7%ba%a7%e5%a4%a7%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e6%8e%a8%e7%90%86%e7%9a%84%e9%ab%98%e6%95%88kv-cache%e5%b1%82/

LMCACHE:面向企业级大语言模型推理的高效KV Cache层 | LMCache Blog

作者:Yihua Cheng 、Yuhan Liu 、 Jiayi Yao * 、Yuwei An、Xiaok […]

LMCache Blog