Mastodawn

LMCACHE：面向企业级大语言模型推理的高效KV Cache层

作者：Yihua Cheng 、Yuhan Liu 、 Jiayi Yao * 、Yuwei An、Xiaokun Chen、Shaoting Feng 、 Yuyang Huang、Samuel Shen、Kuntai Du、Junchen Jiang 单位：TensorMesh&芝加哥大学摘要如今的大语言模型（LLM）推理系统为简化设计，将各个推理引擎和请求独立处理，这导致了严重的资源效率低下问题。尽管已有相关方案提出通过跨请求复用KV Cache来避免冗余计算，并通过将单个请求拆分到不同推理引擎来提高 GPU 利用率，但这些方案的实现离不开跨推理引擎与请求之间的高效KV Cache卸载和传输。本文提出 LMCACHE，首个且目前最高效的开源 KV Cache缓存解决方案。它能够提取并存储主流 LLM 推理引擎（vLLM 和 SGLang）生成的 KV Cache，并支持跨引擎、跨请求共享。LMCACHE 在 LLM 引擎接口中暴露 KV…

https://blog.lmcache.ai/zh/2025/11/24/lmcache%e9%9d%a2%e5%90%91%e4%bc%81%e4%b8%9a%e7%ba%a7%e5%a4%a7%e8%af%ad%e8%a8%80%e6%a8%a1%e5%9e%8b%e6%8e%a8%e7%90%86%e7%9a%84%e9%ab%98%e6%95%88kv-cache%e5%b1%82/

LMCACHE：面向企业级大语言模型推理的高效KV Cache层 | LMCache Blog

作者：Yihua Cheng 、Yuhan Liu 、 Jiayi Yao * 、Yuwei An、Xiaok […]

LMCache Blog