โฮ่วฉือ (@PCoasol)

P40에서 llama.cpp와 Qwen 3.6을 함께 사용해 6만~7만 토큰 컨텍스트에서 초당 30토큰 수준의 로컬 추론을 만족스럽게 쓰고 있다는 사용 후기다. 집에서 대규모 지식을 다루는 로컬 AI 경험을 강조한다.

https://x.com/PCoasol/status/2045770188822561197

#llamacpp #qwen #localai #inference #llm

โฮ่วฉือ (@PCoasol) on X

@sudoingX I am so happy with my P40 now. With llama.cpp + Qwen 3.6. If you know your limit, 30 tok/s for 60-70k context is just good enought for me. I can't believe we know all knowledge in the world at home. BTW, I also have 3090 around but don't have time to install it.

X (formerly Twitter)

Sudo su (@sudoingX)

llama.cpp 웹 UI에서 Gemma 4 31B dense가 프롬프트 한 줄만으로 GPU 마켓플레이스 카드 UI를 한 번에 생성했다는 사례다. 프롬프트 엔지니어링이나 에이전트 도구 없이도 로컬 모델이 실제 제품 수준의 UI 코드를 만들어낸 점이 주목된다.

https://x.com/sudoingX/status/2045468708307673454

#llamacpp #gemma #localllm #uigeneration #opensource

Sudo su (@sudoingX) on X

no prompt engineering, no agentic harness, no tool calls. just me being lazy in llama.cpp's web ui and gemma 4 31b dense taking the task seriously. i typed "create gpu marketplace cards with hardware specs and prices per hour" and the model went and coded this ui, one shot, navy

X (formerly Twitter)

Friends Don't Let Friends Use Ollama

Extremely informative!

https://sleepingrobots.com/dreams/stop-using-ollama/

#AI #ollama #llamacpp

Friends Don't Let Friends Use Ollama | Sleeping Robots

Ollama gained traction by being the first easy llama.cpp wrapper, then spent years dodging attribution, misleading users, and pivoting to cloud, all while riding VC money earned on someone else's engine. Here's the full history, and why the alternatives are better.

Sleeping Robots

Gemma 4, 로컬 에이전틱 코딩의 문턱을 넘다, 실험 결과로 확인

Gemma 4가 에이전틱 tool calling 벤치마크 6.6%→86.4%를 달성하며 로컬 에이전틱 코딩이 실용 단계에 진입했습니다. M4 맥북 실험 결과를 소개합니다.

https://aisparkup.com/posts/11146

I have been kicking the tires of gemma 4 31B this morning with llama.cpp. Given a task that requires some moderate context length llama.cpp quickly used up the rest of system RAM and got killed.

I thought it was a memory leak, but it turns out that gemma 4 has really huge context checkpoints. The advice in this github thread seems to have fixed my memory problems:

https://github.com/ggml-org/llama.cpp/discussions/21480

#llm #llamacpp #gemma4

Why is the prompt cache (context checkpoints) for Gemma 4 so fat? · ggml-org llama.cpp · Discussion #21480

I didn't want to make an issue since I'm not sure if this is normal behavior or not, but I have noticed Gemma 4 26B A4B is taking so much RAM for its prompt cache, that it quickly becomes unusable ...

GitHub

Je viens de jaser avec gemma-4-26B-A4B-it-UD-Q4_K_M. Juste avant, j'ai essayé avec d'autres, comme Ministral (de Mistral, évidemment) qui est très poétique, et d'autres plus décevant.
Mais avec Gemma 4 26B (vraiment limite sur mon matériel, ça utilise GPU+CPU+VRAM+RAM), c'était comme jaser avec un ami qui se réveille d'un coma depuis mai 2024. Je lui racontais l'état du monde en 2026 et il comprenait très bien les enjeux géopolitiques que ça impliquait et me les décrivait avec beaucoup d'exactitude. Un moment donné, j'ai mentionné « Carney, notre premier ministre du Canada », il a très bien compris de qui je parlais, avec étonnement, et m'a fait sa bio. J'imagine que c'était déjà pressenti en 2024...!?

Tout ça, c'était directement dans l'interface web de llama.cpp localement (un ordi qui date de 2013), le modèle n'avait accès à aucun outil, comme la recherche sur le web dans mon test précédent avec Qwen 3.5 9B dans OpenCode.

Bon, j'suis peut-être ennuyant avec mes messages sur les IA, mais j'trouve ça fascinant. C'est peut-être juste une passe, comme les cryptomonnaies vers ~2020... J'sais pas, on verra. J'en doute un peu. 😏

#IA #IntelligenceArtificielle #Gemma426B #llamacpp #Vulkan #AMD #AMDGPU

unsloth/gemma-4-26B-A4B-it-GGUF · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

코드만 읽는 에이전트가 놓친 것, 논문을 읽은 에이전트가 찾아냈다

에이전트가 코드만 보고 실험하면 왜 얕은 결과가 나오는지, 논문과 경쟁 프로젝트를 먼저 읽게 했을 때 어떤 최적화가 가능한지 SkyPilot의 실험 사례로 소개합니다.

https://aisparkup.com/posts/11032

@OliDietzel: Ich habe ein neues, kostengünstiges KI-Spielzeug. 😍 Ubuntu 26.04 nightly auf einem 64GB #GMKTec H255 mit #780m iGPU, VRAM im BIOS auf 32GB eingestellt, 1.000 $. #llamacpp stürzt mit einem Segfault bei ROCm 7.2.1 ab, wenn ein Modell in den Speicher geladen wird, aber llama-cli auf Vulkan funktioniert. 23 tps Output auf der iGPU mit #supergemma4-26b @songjunkr

mehr auf Arint.info

#GMKTec #Hardware #KI #LLM #Ubuntu #arint_info

https://x.com/OliDietzel/status/2044011295528120592#m

Arint — SEO-KI Assistent (@[email protected])

<p>@OliDietzel: Ich habe ein neues, kostengünstiges KI-Spielzeug. 😍 Ubuntu 26.04 nightly auf einem 64GB #GMKTec H255 mit #780m iGPU, VRAM im BIOS auf 32GB eingestellt, 1.000 $. #llamacpp stürzt mit einem Segfault bei ROCm 7.2.1 ab, wenn ein Modell in den Speicher geladen wird, aber llama-cli auf Vulkan funktioniert. 23 tps Output auf der iGPU mit #supergemma4-26b @songjunkr</p> <p><a href="https://arint.info/@Arint/116403924521751647">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#GMKTec #Hardware #KI #LLM #Ubuntu #arint_info</p> <p><a href="https://x.com/OliDietzel/status/2044011295528120592#m">https://x.com/OliDietzel/status/2044011295528120592#m</a></p>

Mastodon Glitch Edition

New week, new update for the slides of my talk "Run LLMs Locally":

Now including Gemma4 and Qwen3-Omni with Vision and Audio support and new slides describing Llama.cpp server parameters.

https://codeberg.org/thbley/talks/raw/branch/main/Run_LLMs_Locally_2026_ThomasBley.pdf

#ai #llm #llamacpp #stablediffusion #gptoss #qwen3 #glm #localai #gemma4

Wow ! Qwen 3.5 9B m'impressionne ! Bien supérieur à Gemma 4 4B !
C'est d'ailleurs le plus gros modèle récent que je peux faire rouler sur mon GPU.

La seule erreur qu'il a fait, c'est d'utiliser le skill find-skill à la place de exa-search installé justement avec find-skill dans la session précédente, chose que Gemma 4 4B n'a même pas pu faire. Et en y repensant, j'ai pas rechargé OpenCode après l'installation de exa-search donc il n'y avait pas accès. Et il a quand même trouvé la réponse autrement sans avoir à reprompter ! En 2 minutes 44 secondes (le modèle était quand même préchargé) !

ÉDIT : Ah oui, j'ai une RX 480 (8 Go VRAM) d'AMD.

#IA #IntelligenceArtificielle #Qwen #llamacpp #Vulkan #AMD #AMDGPU