New week, beautiful new slides: Run LLMs Locally

Now with Mellum2 from JetBrains!
A very fast coding model, requires only 10 GB RAM.

I also added LFM 2.5 from LiquidAI, updated translations with HY-MT2 from Tencent, added examples for wllama using re-ranking and structured output
and added thinking_budget_tokens to the curl examples.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp #webassembly #jetbrains #mellum2

New week, more slides: Run LLMs Locally

Now including wllama to run GGUF models inside your browser!

wllama uses llama.cpp, WebAssembly and WebGPU, bringing a completely new experience of LLMs into the web.
It has no 4 GB limitation and is faster than Transformers.js.

I also added translations using the HY-MT model from Tencent.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #wllama #stablediffusion #qwen3 #glm #localai #gemma4 #webgpu #opencode #mtp #webassembly

Некорпоративный Хабр: семантический поиск и фильтрация по структурированным полям

Классический RAG индексирует исходный текст документа, предварительно разбивая на фрагменты. Потом рассчитывает векторное представление фрагментов и сохраняет их векторные представления в базу данных для поиска. Это дает возможность искать по сходству фрагментов текста и поискового запроса пользователя, но не дает возможность искать по более высокоуровневым резюме и смыслам, темам поднятым в тексте и прочему. Также не помогает с аналитикой по содержимому. Бесплатный проект text-metadata-generator позволяет выполнять запросы к LLM по каждому документу из коллекции документов, результаты вывода LLM проверяются по JSON схеме. Зачем может пригодиться эта программа и подход со структурированием текстовой информации своя библиотека с каталогом - поиск по локальным документам с использованием комбинации SQL предикатов и семантического поиска аналитика по документам, возможность находить новое в текстах: комбинируя структурированные поля созданные LLM из исходного текста, и находя закономерности с уже существующими в документе метаданными. Например, связывая с рейтингом признак NSFW, тон повествования, полноту содержания итп. разгрести “авгиевы конюшни” личных заметок в Obsidian или git репозитарии с Markdown файлами Рассмотрим как работает данный подход на 13275 статьях с Хабра, а также текстах трех песнен…

https://habr.com/ru/articles/1036594/

#семантический_поиск #структурирование_инфомации #локальный_поиск_по_документам #эмбеддинги #duckdb_wasm #wllama #llmприложения #sql #rag #llm

Некорпоративный Хабр: семантический поиск и фильтрация по структурированным полям

Классический RAG индексирует исходный текст документа, предварительно разбивая на фрагменты. Потом рассчитывает векторное представление фрагментов и сохраняет их векторные представления в базу данных...

Хабр

HalChatLocalAI: как я встроил офлайн-ИИ прямо в мессенджер

Большинство ИИ-ассистентов работают в облаке. А я сделал локальный — прямо внутри мессенджера HalChat .

https://habr.com/ru/articles/966888/

#ИИ #Локальный_ИИ #HalChat #HalSM #WLLama #LLM #приватность #javascript #чат_бот #экосистема

HalChatLocalAI: как я встроил офлайн-ИИ прямо в мессенджер

Большинство ИИ-ассистентов работают в облаке. А я сделал локальный — прямо внутри мессенджера HalChat . Большинство современных ИИ-ассистентов работают в облаке, требуют подключения к серверам и не...

Хабр
De WASM au C++: l’IA de Firefox change de braquet pour devenir jusqu'à 10 fois plus rapide

De WebAssembly (WASM) à C++, Firefox change de moteur d'exécution pour son IA locale et annonce des gains de « 2 à 10× » selon les tâches, tout en supprimant le coût de chauffe propre au WASM lors des premiers lancements. Les premières fonctions concernées, dont les groupes d'onglets intelligents et la génération d'alt‑text dans PDF.js, bénéficient déjà de cette accélération dans Firefox 142, avec une latence mesurée passant de 3,5 s à 350 ms pour l'alt‑text sur la même machine.

clubic.com

🧠 #Wllama è un progetto che permette di eseguire l'inferenza del modello di linguaggio direttamente nel browser.
👉 Senza backend e senza #GPU. Il tutto basato su #WebAssembly SIMD.
⚙️ Con tutte le limitazioni del caso, ma per certi tipi di applicazioni semplici è un approccio davvero interessante.
🔗 Il progetto: https://github.com/ngxson/wllama

___
✉️ 𝗦𝗲 𝘃𝘂𝗼𝗶 𝗿𝗶𝗺𝗮𝗻𝗲𝗿𝗲 𝗮𝗴𝗴𝗶𝗼𝗿𝗻𝗮𝘁𝗼/𝗮 𝘀𝘂 𝗾𝘂𝗲𝘀𝘁𝗲 𝘁𝗲𝗺𝗮𝘁𝗶𝗰𝗵𝗲, 𝗶𝘀𝗰𝗿𝗶𝘃𝗶𝘁𝗶 𝗮𝗹𝗹𝗮 𝗺𝗶𝗮 𝗻𝗲𝘄𝘀𝗹𝗲𝘁𝘁𝗲𝗿: https://bit.ly/newsletter-alessiopomaro

#AI #GenAI #GenerativeAI

GitHub - ngxson/wllama: WebAssembly binding for llama.cpp - Enabling on-browser LLM inference

WebAssembly binding for llama.cpp - Enabling on-browser LLM inference - ngxson/wllama

GitHub