KV-Cache в LLM: разбираем инференс через 9 ключевых вопросов
Почему Cache Read и Cache Write стоят денег и как работает Prompt Caching? Разбираем KV-Cache через 9 ключевых вопросов. Разобраться
https://habr.com/ru/articles/1021832/
#машинное_обучение #машинное_обучение_нейросети #llm #gpu #transformers #kvcache #prompt_caching #attention #vllm #prefix_caching
