Mastodawn

Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака

Я давно слежу за развитием локальных LLM, но всегда упирался в одно и то же — либо модель маленькая и качество не устраивает, либо большая и не влезает в видеопамять. Всё изменилось когда я наткнулся на статью про MoE-модели и параметр -cmoe в llama.cpp. Расскажу как я запустил Qwen3.6 35B-A3B на RTX 4070 12GB с 32GB RAM, настроил его как AI-ассистент для реального проекта в opencode, и почему теперь эта модель у меня работает постоянно.

https://habr.com/ru/articles/1026482/

#llm #локальные_модели #qwen #moe #lm_studio #opencode #llamacpp #искусственный_интеллект #rtx_4070 #aiассистент

Запускаем Qwen3.6 35B-A3B + opencode локально на RTX 4070 12GB — AI-ассистент для разработки без облака

Хабр

Habr Apr 12

[Перевод] Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета

Ещё вчера для запуска 26-миллиардной нейросети нужен был дата-центр. Сегодня достаточно ноутбука и одной консольной команды. Встречайте: Google Gemma 4 26B-A4B. Модель, которая ломает старые правила. Архитектура mixture-of-experts (128 экспертов, 8 активных на токен) позволяет ей работать на скромных 48 ГБ объединённой памяти, выдавая при этом качество, сопоставимое с гигантами вроде Qwen 3.5 на 397B параметров. А LM Studio 0.4.0 только что сделала локальный запуск таких моделей по-настоящему удобным . Фоновый демон llmster , консольная утилита lms , непрерывный батчинг и – внимание! – эндпойнт, совместимый с Anthropic . Это значит, что вы можете направить Claude Code на свою локальную Gemma 4. Хотите узнать, как заставить эту связку летать? Как правильно рассчитать память под контекст в 256K токенов и почему спекулятивное декодирование — плохая идея для MoE? А главное — сколько это всё жрёт энергии и греет ли ваш Mac? Поехали!

https://habr.com/ru/companies/bothub/articles/1022574/

#gemma_4 #google #lm_studio #claude_code

Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета

Хабр

Habr Mar 21

Локальная LLM для кодинга за 12 минут: LM Studio, Kilo Code и четыре бесплатных облачных варианта

Показываю, как запустить локальную LLM и подключить её к IDE за 15 минут, а также четыре бесплатных облачных альтернативы. Локальный вариант: LM Studio + Qwen3-Coder + Kilo Code. Работает офлайн, без подписки и лимитов на запросы. Облачные варианты: Kilo Code со своими бесплатными моделями, Qwen Code с 1 000 запросов в день, OpenCode с ротируемыми open source free моделями и OpenAI Codex — пока бесплатный для Free-аккаунтов.

https://habr.com/ru/companies/haulmont/articles/1012626/

#локальная_LLM #LM_Studio #Kilo_Code #Qwen #Claude_Code #open_source #ИИагент #кодинг #бесплатные_модели

Локальная LLM для кодинга за 12 минут: LM Studio, Kilo Code и четыре бесплатных облачных варианта

Иногда нужна языковая модель, которая работает без интернета — на борту самолёта, в закрытом корпоративном контуре и т.д. В других случаях интернет есть, но платить за подписку не хочется. В этой...

Хабр

Hacker News Jan 28

LM Studio 0.4.0
https://lmstudio.ai/blog/0.4.0
#ycombinator #local_ai #local_llm #gpt_oss #on_device_ai #run_local_ai #LM_Studio #Llama #Gemma #Qwen #DeepSeek #llama_cpp #mlx

Introducing LM Studio 0.4.0

Server deployment, parallel requests with continuous batching, new REST API endpoint, and refreshed application UI

LM Studio Blog

Habr Jan 17

История о том как «Очень хочется, но ты зеленый»

Хочется сделать проект с ИИ, но нет ни бюджета, ни опыта в ML, ни мощного железа? В этой статье я расскажу, как, работая системным администратором и имея нулевые знания Python, собрал локального ИИ-бота для анализа резюме. Без облаков, платных API и «магии». Речь пойдёт о реальном опыте: выборе модели, запуске LLM на слабой видеокарте, интеграции с Telegram и о том, какие задачи такой бот действительно может решать в работе HR и руководителей. А также — что это дало мне как специалисту и почему подобные эксперименты полезны, даже если ты пока «зелёный».

https://habr.com/ru/articles/986018/

#Сезон_ИИ_в_разработке #телеграммбот #python #lm_studio #hr_в_it #hrтехнологии #искусственный_интеллект #разработка #api #http

История о том как «Очень хочется, но ты зеленый»

Акт 1. Сбор и анализ Начало 2024 года. Я работаю сис.админом в группе тех. поддержке пользователей. В свободное время на работе сижу что-то читаю о сетях, и информационной безопасности. Параллельно...

Хабр

Habr Dec 4

Мой опыт настройки и использования AI инструментов в разработке

Локальные LLM для кода — пока мусор. По крайней мере на M1 Max 32GB Тестировал 5 моделей на реальном проекте. Результат: qwen3-coder-30b - завис после 44k токенов qwen2.5-coder-14b - ушёл в бесконечные вопросы qwen3-8b - пыталась выполнить list_files в терминале deepseek-coder - сломал файл со второй попытки При этом DeepSeek через API за 95₽ сделал три валидных изменения за 11 минут. Вывод: если нет жёстких требований к конфиденциальности - не мучайте свое железо. Claude Code или облачный DeepSeek работают в разы лучше. Подробный разбор с промптами, настройками и ценами провайдеров в статье. Перейти

https://habr.com/ru/articles/973404/

#cursor #claude_code #deepseek #qwen #qwen3coder #kiro #perplexity #gemini #lm_studio #mcp

Мой опыт настройки и использования AI инструментов в разработке

Способы написания кода с АИ Принципиально есть несколько способов писать код с использованием AI вставлять части кода в DeepSeek , Qwen , Perplexity , Gemini купить подписку за 20 USD на сервис Cursor...

Хабр

Habr Nov 20

Вайб-кодинг от-кутюр: MCP-сервер проверки и запуска кода на Питоне

При вайб-кодинге, то есть разработке с использованием ИИ, локальная нейросеть предлагает Python-скрипт для решения задачи, но нужна уверенность в его корректности и безопасности. Прямой запуск такого кода на рабочей машине это риск для системы и данных. Значит MCP-сервер должен учитывать это. Посмотрим как устроен такой сервер, какие подводные камни могут встретиться и как интегрировать его с локальной LLM. Статья является документированным описанием проекта MCP-сервера, инструмента LLM, предоставляющего две функции: проверку синтаксиса и безопасное выполнение кода в изолированной песочнице. Исходники выложены на github .

https://habr.com/ru/articles/967042/

#mcpserver #LMM #lm_studio

Вайб-кодинг от-кутюр: MCP-сервер проверки и запуска кода на Питоне

MCP-серверы постепенно становятся необходимой частью инфраструктуры локальных LLM, обеспечивая безопасное взаимодействие между моделью и внешними инструментами. Такой сервер может быть полезен,...

Хабр

Habr Sep 20, 2025

Как запустить свою LLM для инференса. Руководство по запуску: Ollama, vLLM, Triton, LM Studio, llama.cpp, SGLang

В этой статье будет приведено практическое руководство по базовой настройке и запуску следующих инструментов для работы с LLM: Ollama, LM Studio, vLLM, Triton, llama.cpp, SGLang. 🔥 Начинаем? 🔥

https://habr.com/ru/articles/948934/

#ollama #vllm #triton #lm_studio #llamacpp #sglang #запуск_llm

Как запустить свою LLM для инференса. Руководство по запуску: Ollama, vLLM, Triton, LM Studio, llama.cpp, SGLang

Введение Всем привет! Меня зовут Максимов Максим, я — NLP‑инженер в компании red_mad_robot. Сегодня я хотел бы представить вам практическое руководство по запуску и использованию...

Хабр

Habr Sep 18, 2025

Nvidia CMP – микроскопы для забивания гвоздей?! Копаем глубже…

Почему видеокарта, имеющая неплохие вычислительные возможности, в Stable Diffusion работает в 20 раз медленнее, чем RTX 3060? Почему в LM Studio она становится фаворитом, а в ComfyUI карета превращается в тыкву? Почему FurMark на CMP 90HX тормозит, а на CMP 50HX «бублик» крутится почти нормально? Разгадки в разных программных ограничениях, которые можно найти с помощью экспериментов. Я купил три майнинговые карты Nvidia, чтобы понять, можно ли заставить их эффективно работать. В этот раз мы рассмотрим: статистику производительности в LM Studio, как всё печально в ComfyUI и Stable Diffusion, анатомию программного кода GPU, почему оптимизации производительности дают на CMP обратный эффект, какие режимы вычислений могут раскрыть их потенциал.

https://habr.com/ru/articles/948396/

#llm #nvidia #cmp #50hx #90hx #lm_studio #майнинг #cuda #cublas #40hx

Nvidia CMP – микроскопы для забивания гвоздей?! Копаем глубже…

Хабр

Habr Aug 24, 2025

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 50HX, CMP 90HX

Теоретическая производительность майнинговых карт весьма высока, но синтетические тесты показывают, что они в 10 раз слабее игровых - где же правда? На практике с LLM они оказались на уровне RTX 2060/3060. Эта статья для тех, кто хочет сделать дешёвый LLM-сервер и любителей хардкорных экспериментов. Так что же они могут?

https://habr.com/ru/articles/940226/

#ollama #llm #fp16 #nvidia #cmp #50HX #90HX #майнинг #искусственный_интеллект #lm_studio

Темные лошадки ИИ – инференс LLM на майнинговых видеокартах Nvidia CMP 50HX, CMP 90HX

Синтетические тесты показывают, что эти карты в 10 раз медленнее старых игровых. Но на практике с LLM они оказались на уровне RTX 2060/3060. Эта статья для тех, кто хочет сделать дешёвый LLM-сервер и...

Хабр