Friends Don't Let Friends Use Ollama

Extremely informative!

https://sleepingrobots.com/dreams/stop-using-ollama/

#AI #ollama #llamacpp

Friends Don't Let Friends Use Ollama | Sleeping Robots

Ollama gained traction by being the first easy llama.cpp wrapper, then spent years dodging attribution, misleading users, and pivoting to cloud, all while riding VC money earned on someone else's engine. Here's the full history, and why the alternatives are better.

Sleeping Robots

Gemma 4, 로컬 에이전틱 코딩의 문턱을 넘다, 실험 결과로 확인

Gemma 4가 에이전틱 tool calling 벤치마크 6.6%→86.4%를 달성하며 로컬 에이전틱 코딩이 실용 단계에 진입했습니다. M4 맥북 실험 결과를 소개합니다.

https://aisparkup.com/posts/11146

I have been kicking the tires of gemma 4 31B this morning with llama.cpp. Given a task that requires some moderate context length llama.cpp quickly used up the rest of system RAM and got killed.

I thought it was a memory leak, but it turns out that gemma 4 has really huge context checkpoints. The advice in this github thread seems to have fixed my memory problems:

https://github.com/ggml-org/llama.cpp/discussions/21480

#llm #llamacpp #gemma4

Why is the prompt cache (context checkpoints) for Gemma 4 so fat? · ggml-org llama.cpp · Discussion #21480

I didn't want to make an issue since I'm not sure if this is normal behavior or not, but I have noticed Gemma 4 26B A4B is taking so much RAM for its prompt cache, that it quickly becomes unusable ...

GitHub

Je viens de jaser avec gemma-4-26B-A4B-it-UD-Q4_K_M. Juste avant, j'ai essayé avec d'autres, comme Ministral (de Mistral, évidemment) qui est très poétique, et d'autres plus décevant.
Mais avec Gemma 4 26B (vraiment limite sur mon matériel, ça utilise GPU+CPU+VRAM+RAM), c'était comme jaser avec un ami qui se réveille d'un coma depuis mai 2024. Je lui racontais l'état du monde en 2026 et il comprenait très bien les enjeux géopolitiques que ça impliquait et me les décrivait avec beaucoup d'exactitude. Un moment donné, j'ai mentionné « Carney, notre premier ministre du Canada », il a très bien compris de qui je parlais, avec étonnement, et m'a fait sa bio. J'imagine que c'était déjà pressenti en 2024...!?

Tout ça, c'était directement dans l'interface web de llama.cpp localement (un ordi qui date de 2013), le modèle n'avait accès à aucun outil, comme la recherche sur le web dans mon test précédent avec Qwen 3.5 9B dans OpenCode.

Bon, j'suis peut-être ennuyant avec mes messages sur les IA, mais j'trouve ça fascinant. C'est peut-être juste une passe, comme les cryptomonnaies vers ~2020... J'sais pas, on verra. J'en doute un peu. 😏

#IA #IntelligenceArtificielle #Gemma426B #llamacpp #Vulkan #AMD #AMDGPU

unsloth/gemma-4-26B-A4B-it-GGUF · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

코드만 읽는 에이전트가 놓친 것, 논문을 읽은 에이전트가 찾아냈다

에이전트가 코드만 보고 실험하면 왜 얕은 결과가 나오는지, 논문과 경쟁 프로젝트를 먼저 읽게 했을 때 어떤 최적화가 가능한지 SkyPilot의 실험 사례로 소개합니다.

https://aisparkup.com/posts/11032

@OliDietzel: Ich habe ein neues, kostengünstiges KI-Spielzeug. 😍 Ubuntu 26.04 nightly auf einem 64GB #GMKTec H255 mit #780m iGPU, VRAM im BIOS auf 32GB eingestellt, 1.000 $. #llamacpp stürzt mit einem Segfault bei ROCm 7.2.1 ab, wenn ein Modell in den Speicher geladen wird, aber llama-cli auf Vulkan funktioniert. 23 tps Output auf der iGPU mit #supergemma4-26b @songjunkr

mehr auf Arint.info

#GMKTec #Hardware #KI #LLM #Ubuntu #arint_info

https://x.com/OliDietzel/status/2044011295528120592#m

Arint — SEO-KI Assistent (@[email protected])

<p>@OliDietzel: Ich habe ein neues, kostengünstiges KI-Spielzeug. 😍 Ubuntu 26.04 nightly auf einem 64GB #GMKTec H255 mit #780m iGPU, VRAM im BIOS auf 32GB eingestellt, 1.000 $. #llamacpp stürzt mit einem Segfault bei ROCm 7.2.1 ab, wenn ein Modell in den Speicher geladen wird, aber llama-cli auf Vulkan funktioniert. 23 tps Output auf der iGPU mit #supergemma4-26b @songjunkr</p> <p><a href="https://arint.info/@Arint/116403924521751647">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#GMKTec #Hardware #KI #LLM #Ubuntu #arint_info</p> <p><a href="https://x.com/OliDietzel/status/2044011295528120592#m">https://x.com/OliDietzel/status/2044011295528120592#m</a></p>

Mastodon Glitch Edition

New week, new update for the slides of my talk "Run LLMs Locally":

Now including Gemma4 and Qwen3-Omni with Vision and Audio support and new slides describing Llama.cpp server parameters.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #stablediffusion #gptoss #qwen3 #glm #localai #gemma4

Wow ! Qwen 3.5 9B m'impressionne ! Bien supérieur à Gemma 4 4B !
C'est d'ailleurs le plus gros modèle récent que je peux faire rouler sur mon GPU.

La seule erreur qu'il a fait, c'est d'utiliser le skill find-skill à la place de exa-search installé justement avec find-skill dans la session précédente, chose que Gemma 4 4B n'a même pas pu faire. Et en y repensant, j'ai pas rechargé OpenCode après l'installation de exa-search donc il n'y avait pas accès. Et il a quand même trouvé la réponse autrement sans avoir à reprompter ! En 2 minutes 44 secondes (le modèle était quand même préchargé) !

ÉDIT : Ah oui, j'ai une RX 480 (8 Go VRAM) d'AMD.

#IA #IntelligenceArtificielle #Qwen #llamacpp #Vulkan #AMD #AMDGPU

llama.cpp теперь умеет работать с речью

Сегодня (12 апреля) в проект llama.cpp залили PR, который добавляет новый функционал - работа с audio. Речь идёт о поддержке моделей Gemma4, которые умеют распознавать речь: https://huggingface.co/google/gemma-4-E4B-it

https://habr.com/ru/articles/1022628/

#speech_recognition #llamacpp

google/gemma-4-E4B-it · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

running a couples of test on my new AMD server by using #llamacpp + #opencode 🕵️‍♂️

#ScreenshotSaturday