Mastodawn

LMCache 与 CoreWeave 如何助力 Cohere 突破内存瓶颈，实现高效大模型推理

Oct 29, 2025 By Walter Beller-Morales (Cohere), Samuel Shen (Tensormesh), Kishor Aher (CoreWeave) 一、挑战：企业级 AI 的扩展难题当前，各类企业正竞相将大语言模型（LLM）融入其产品与工作流程。然而，当应用规模扩大时，性能、成本与精度便成为三大核心挑战。企业既需要模型能基于自身数据进行定制，又必须确保数据隐私的安全性。Cohere 作为领先的企业级 AI 公司，构建了 North 平台，旨在帮助组织安全、有效地利用内部数据以实现检索增强生成（Retrieval-Augmented Generation，RAG）。North 使企业能够将模型输出锚定于可信的私有知识库，从而生成高精度、上下文相关的定制化响应。在 RAG…