LongConspectWriter: автоматическая генерация структурированных конспектов лекций на потребительском GPU

Автоматическая генерация структурированных академических конспектов из аудиозаписей лекций по точным и естественным наукам затруднена для локальных малых языковых моделей (small language models, SLM). Транскрипт лекции продолжительностью ≈1,5 ч составляет около 15–20 тыс. токенов и формально умещается в контекстное окно современных локальных SLM, однако при обработке такого контекста single-call SLM систематически деградируют: теряют фрагменты из середины последовательности, не удерживают структуру и галлюцинируют термины и формулы. Это проявление эффекта Lost in the Middle : точность извлечения информации описывает U-образную кривую — высока на краях контекста и падает в середине; в наших условиях используются SLM, поведение которых так же описано в статье, и оно характеризуется выраженным забыванием не только из середины, но также и из начала контекста. Более того, на бюджете 8 ГБ VRAM single-call длинного транскрипта практически неприменим*, что делает декомпозицию не оптимизацией, а необходимым условием работоспособности.

https://habr.com/ru/articles/1049640/

#LLM #локальные_LLM #llamacpp #квантизация #суммаризация_текста #длинный_контекст #мультиагентные_системы #семантическая_кластеризация #LLMasajudge #конспекты_лекций

LongConspectWriter: автоматическая генерация структурированных конспектов лекций на потребительском GPU

Аннотация Автоматическая генерация структурированных академических конспектов из аудиозаписей лекций по точным и естественным наукам затруднена для локальных малых языковых моделей (small language...

Хабр

OpenCode с NorthMiniCode на своем железе

В последнее время большинство обсуждений агентской разработки крутится вокруг Claude Code, Codex, Gemini CLI и других облачных инструментов. Но, с одной стороны, киты индустрии блокируют нам доступы снаружи, с другой — чиновничьи умы блокируют нам доступ изнутри, потому необходимо иметь под рукой локальный инструмент для агентской разработки. 9 июня 2026 вышла модель NorthMiniCode , в отличие от qwen и подобных специально заточенная под агентские циклы. Планирование, инструменты, редактирование, терминал — это то, на что заточена модель. Подробно разбирать архитектурные особенности будем в следующий раз, а сейчас опишу свой опыт развертывания данной модели и использования ее в OpenCode на домашнем компьютере. Разблокировать знания

https://habr.com/ru/articles/1049412/

#llmмодели #llmагент #selfhosted #agents #программирование #llamacpp #opencode #ии_модели

OpenCode с NorthMiniCode на своем железе

В последнее время большинство обсуждений агентской разработки крутится вокруг Claude Code, Codex, Gemini CLI и других облачных инструментов. Но, с одной стороны, киты индустрии блокируют нам доступы...

Хабр

Update, more slides: Run LLMs Locally

I added sandboxing of OpenCode and llama.cpp with nono and Landlock.
And a new slide to describe jailbreaks with DeepInception.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode

An experiment with using #AI to write #history of diversity in Christian thought
https://www.rsok.com/~jrm/gemma4_Augustine/

I have been experimenting with #llamacpp and #gemma4 running offline on my #Debian computer

I do not know much about it, so I likely did several things wrong. Previously I spent a few weeks trying to get gemma4 to write code, but the code was poorly written and variable names that should have been used from library header files were hallucinated.

#dualism #pelagius #Alaric #Augustine

Diversity in Ancient Christianity

Ubuntu 26.04 на клоне DGX Spark (Asus GX10)

DGX Spark и его клоны поставляются с DGX OS (фактически, Ubuntu 24.04 с кучей дополнительных пакетов от Nvidia). Причем, драйвера используются довольно старые, версии 580, cuda toolkit тоже чуток устарел, 12-ой версии. Кроме того, стоит куча невразумительных пакетов с телеметрией (типа, для работы с Nvidia Sync), обвешано все какими-то левыми скриптами и странными настройками. Не то, чтобы это создавало прямо уж совсем серьезные проблемы, но сам факт наличия какого-то непонятного bloatware меня, как бывшего системного администратора - довольно сильно расстраивал. На форуме Nvidia кто-то уже написал, что ставил чистую Ubuntu 26.04 без серьезных трудностей, так что я решил сделать так же. Попутно захотелось перейти на ZFS ради возможности точно устанавливать размер файлового кэша и компрессии. Разумеется, сначала сделал полный бэкап на внешний nvme. Потом поставил Ubuntu 26.04 Desktop ARM, и оно даже успешно заработало, успешно установил необходимые пакеты и скомпилировал llama.cpp. Но появилась странная проблема с повышенным энергопотреблением - GX10 начал жрать из розетки во всех режимах на примерно 15 ватт больше. В idle - 41 ватт вместо 26, во время работы LLM - 195 вместо 180. Вроде бы немного, но для спарков и его клонов, с их системой охлаждения, работающей на пределе - это довольно критично. Чатгпт раскопал пост, где кто-то сетовал на похожую проблему с портами ConnectX-7 (и, как потом оказалось, это действительно была та самая проблема), но его предложения по деактивации этих портов и выгрузке драйверов никак не помогли.

https://habr.com/ru/articles/1049206/

#nvidia #dgx_spark #Ubuntu #llamacpp #vllm

Ubuntu 26.04 на клоне DGX Spark (Asus GX10)

DGX Spark и его клоны поставляются с DGX OS (фактически, Ubuntu 24.04 с кучей дополнительных пакетов от Nvidia). Причем, драйвера используются довольно старые, версии 580, cuda toolkit тоже чуток...

Хабр

Vibecode по дешевке — домашний сервер с Qwen Code за 25к, который не отключит Anthropic

Я начинающий инженер: учусь, работаю, пишу код. Подсел на Claude — и быстро уткнулся в лимиты: полчаса работы, и могучие руки превращаются в лапки. А пока писал эту статью, Anthropic вообще взял и отключил Fable 5 — для всех разом. Сегодня доступ есть, завтра кто-то наверху решил — и ты ни с чем. Поэтому я собрал собственный сервер с локальной LLM. Серверная Tesla V100 с Авито, переходник, водянка, открытая рама вместо корпуса — всё про 25 тысяч за базу (и ~35 со всеми доп. картами). Внутри крутится Qwen3.6-35B и пишет код со скоростью до 85 токенов в секунду. В статье — честно и с цифрами: какое железо и почём, замеры скорости, как llama.cpp раскидывает одну модель сразу по нескольким видеокартам, и живые примеры того, что она умеет — от генерации кода до разбора чужого на прочность. Никакого облака и подписок: всё работает дома, рядом с кроватью, и его никто не отключит сверху. Посмотреть. что собрал

https://habr.com/ru/articles/1049052/

#Tesla_V100 #локальный_LLM #llamacpp #домашний_сервер #инференс #selfhosted #нейросети #AIагент #водяное_охлаждение #qwen_code

Vibecode по дешевке — домашний сервер с Qwen Code за 25к, который не отключит Anthropic

«У нас было две планки оперативной памяти, одна серверная Tesla V100, прочная открытая рама вместо корпуса, 5 райзеров, коробка, наполовину набитая переходниками питания, и целое море...

Хабр

Vibecode по дешевке — домашний сервер с Qwen Code за 25к, который не отключит Anthropic

Я начинающий инженер: учусь, работаю, пишу код. Подсел на Claude — и быстро уткнулся в лимиты: полчаса работы, и могучие руки превращаются в лапки. А пока писал эту статью, Anthropic вообще взял и отключил Fable 5 — для всех разом. Сегодня доступ есть, завтра кто-то наверху решил — и ты ни с чем. Поэтому я собрал собственный сервер с локальной LLM. Серверная Tesla V100 с Авито, переходник, водянка, открытая рама вместо корпуса — всё про 25 тысяч за базу (и ~35 со всеми доп. картами). Внутри крутится Qwen3.6-35B и пишет код со скоростью до 85 токенов в секунду. В статье — честно и с цифрами: какое железо и почём, замеры скорости, как llama.cpp раскидывает одну модель сразу по нескольким видеокартам, и живые примеры того, что она умеет — от генерации кода до разбора чужого на прочность. Никакого облака и подписок: всё работает дома, рядом с кроватью, и его никто не отключит сверху. Посмотреть. что собрал

https://habr.com/ru/articles/1049052/

#Tesla_V100 #локальный_LLM #llamacpp #домашний_сервер #инференс #selfhosted #нейросети #AIагент #водяное_охлаждение #qwen_code

Vibecode по дешевке — домашний сервер с Qwen Code за 25к, который не отключит Anthropic

«У нас было две планки оперативной памяти, одна серверная Tesla V100, прочная открытая рама вместо корпуса, 5 райзеров, коробка, наполовину набитая переходниками питания, и целое море...

Хабр

inferbench: download, launch & benchmark local LLM engines (llama.cpp & more) from one desktop app. Real tokens/sec on YOUR hardware — no invented numbers. Now serves models over MCP and generates images too. Open source:

https://jonimartin27.github.io/inferbench

#llm #localai #benchmark #llamacpp

InferBench — Benchmarkea LLMs locales con un click

Descarga, arranca y benchmarkea motores de inferencia LLM locales con un solo click. Sin tocar la terminal. Tus datos nunca salen de tu máquina. Gratis y open-source.

InferBench

New week, new slides: Run LLMs Locally

I added virtualization of OpenCode with Matchlock and Firecracker microVMs,
containerization of OpenCode and llama.cpp with Docker
and a new slide for indirect prompt injection attacks.
Matchlock is a great project for sandboxing, bringing the advantages of containers to virtual machines.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #firecracker #docker

Yet another itch scratched: Opencode plugin for use with llama-server to show both when and how fast prefill/prompt processing and token generation happens.

source: https://codeberg.org/troed/oc-ls-stats

installation: opencode plugin @troed/oc-ls-stats@latest --global

#OpenCode #llamacpp

oc-ls-stats

Opencode plugin to display the tokens per seconds currently generated by llama-server, as well as whether it's doing prompt processing or token generation.

Codeberg.org