Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine
Год назад запуск модели на 35 миллиардов параметров подразумевал облако, очередь на GPU, и счёт от провайдера в конце месяца. Сегодня я покажу, как мы сделали это на одной потребительской видеокарте AMD за $500 — без ROCm, без CUDA, без MLX, одним бинарником на Zig. Это пост про ZINC — inference engine, который мы строим с нуля под железо, которое люди реально покупают. Не как proof of concept, а как рабочий инструмент с OpenAI-совместимым API, потоковой генерацией и встроенным чатом. Погрузиться
https://habr.com/ru/articles/1020702/
#LLM #inference #AMD #Vulkan #Zig #Metal #GPU #local_AI #Qwen #MoE
