Winston B. (@DoDataThings)

llama.cpp에 MTP가 들어오고 Gemma 4용 GGUF 지원이 실제로 동작하기 시작했다는 소식이다. 로컬에서 Qwen을 에이전트 루프로 돌릴 때 draft-token acceptance로 1.5~2배 빨라져, 파이프라인에서 실사용 가능한 수준으로 개선됐다는 점이 핵심이다.

https://x.com/DoDataThings/status/2052775935263613211

#llamacpp #gguf #gemma4 #qwen #opensource

Winston B. (@DoDataThings) on X

@testingcatalog Tsk. MTP landing in llama.cpp with real GGUF support for Gemma 4 is moving faster than expected. Running Qwen for agent loops locally, the 1.5-2x speedup from draft-token acceptance is the difference between actually usable in a pipeline and sitting there burning time between

X (formerly Twitter)

📢 CVE-2026-7482 : Fuite mémoire critique non authentifiée dans Ollama (Bleeding Llama)
📝 ## 🔍 Contexte

Publié le 5 mai 2026 par Dor Attias de Cyera Research, cet article détaille la découverte d'une *...
📖 cyberveille : https://cyberveille.ch/posts/2026-05-08-cve-2026-7482-fuite-memoire-critique-non-authentifiee-dans-ollama-bleeding-llama/
🌐 source : https://www.cyera.com/research/bleeding-llama-critical-unauthenticated-memory-leak-in-ollama
#CVE_2026_7482 #GGUF #Cyberveille

CVE-2026-7482 : Fuite mémoire critique non authentifiée dans Ollama (Bleeding Llama)

🔍 Contexte Publié le 5 mai 2026 par Dor Attias de Cyera Research, cet article détaille la découverte d’une vulnérabilité critique CVE-2026-7482 (CVSS 9.1) dans Ollama, une plateforme open-source permettant d’exécuter des LLMs localement. Ollama compte environ 170 000 étoiles GitHub et plus de 100 millions de téléchargements sur Docker Hub. 🐛 Nature de la vulnérabilité La vulnérabilité est un out-of-bounds heap read situé dans le code de quantification des modèles GGUF, dans la fonction WriteTo qui utilise le package Go unsafe. Le mécanisme d’exploitation repose sur :

CyberVeille

Apple MLX vs. llama.cpp: compared and benchmarked [video]

Protorikis가 공개한 벤치마크 영상에서는 Apple MLX와 llama.cpp(GGUF 런타임 포함)를 실제 사용 시나리오에서 비교했다. 테스트는 MacBook Pro M3 Max 환경에서 Qwen3.6 35B 모델을 대상으로 진행되었으며, MLX가 특정 상황에서 속도 향상을 보이나, 프롬프트 캐싱 부재, 메모리 압박, 불안정한 성능 문제도 발견되었다. Ollama의 MLX 엔진(NVFP4 포함)과 LM Studio 백엔드도 함께 비교되어, GGUF와 MLX 중 선택 시 참고할 만한 실무적 인사이트를 제공한다. 이 영상은 MLX와 llama.cpp의 실제 성능 차이를 이해하고자 하는 AI 개발자에게 유용하다.

https://www.youtube.com/watch?v=ZwCbChJWXkQ

#applemlx #llama.cpp #benchmark #runtime #gguf

Apple MLX vs llama.cpp: Which is Really Faster? (4 Runtimes - Ollama Included)

YouTube
Poważna podatność w platformie Ollama prowadzi do wycieku pamięci. A wszystko przez odpowiednio spreparowany plik GGUF (CVE-2026-5757) https://sekurak.pl/powazna-podatnosc-w-platformie-ollama-prowadzi-do-wycieku-pamieci-a-wszystko-przez-odpowiednio-spreparowany-plik-gguf-cve-2026-5757/ #Wbiegu #Ai #Cve #Gguf #Ollama #Oob
Poważna podatność w platformie Ollama prowadzi do wycieku pamięci. A wszystko przez odpowiednio spreparowany plik GGUF (CVE-2026-5757)

Badacz bezpieczeństwa Jeremy Brown, znany z odkrywania luk (memory corruption) w ogólnodostępnych narzędziach, po raz kolejny udowodnił, że innowacyjne metody oraz nieszablonowe działania pozwalają wychwycić błędy, które przez lata pozostawały niewidoczne. Korzystając ze wsparcia sztucznej inteligencji udało mu się wykryć poważną podatność w silniku Ollama, skutkującą możliwym wyciekiem danych z...

Sekurak

Poważna podatność w platformie Ollama prowadzi do wycieku pamięci. A wszystko przez odpowiednio spreparowany plik GGUF (CVE-2026-5757)

Badacz bezpieczeństwa Jeremy Brown, znany z odkrywania luk (memory corruption) w ogólnodostępnych narzędziach, po raz kolejny udowodnił, że innowacyjne metody oraz nieszablonowe działania pozwalają wychwycić błędy, które przez lata pozostawały niewidoczne. Korzystając ze wsparcia sztucznej inteligencji udało mu się wykryć poważną podatność w silniku Ollama, skutkującą możliwym wyciekiem danych z...

#WBiegu #Ai #Cve #Gguf #Ollama #Oob

https://sekurak.pl/powazna-podatnosc-w-platformie-ollama-prowadzi-do-wycieku-pamieci-a-wszystko-przez-odpowiednio-spreparowany-plik-gguf-cve-2026-5757/

Poważna podatność w platformie Ollama prowadzi do wycieku pamięci. A wszystko przez odpowiednio spreparowany plik GGUF (CVE-2026-5757)

Badacz bezpieczeństwa Jeremy Brown, znany z odkrywania luk (memory corruption) w ogólnodostępnych narzędziach, po raz kolejny udowodnił, że innowacyjne metody oraz nieszablonowe działania pozwalają wychwycić błędy, które przez lata pozostawały niewidoczne. Korzystając ze wsparcia sztucznej inteligencji udało mu się wykryć poważną podatność w silniku Ollama, skutkującą możliwym wyciekiem danych z...

Sekurak

Ivan Fioravanti ᯅ (@ivanfioravanti)

Qwen3.6-35B-A3B-GGUF의 UD-Q4_K_XL 양자화 버전을 언급하며, 속도가 확실히 더 빠르다고 평가합니다. 경량화된 오픈 모델 추론 성능 개선과 관련된 실사용 인상입니다.

https://x.com/ivanfioravanti/status/2051407374682910836

#qwen #gguf #quantization #llm #opensource

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

Here Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL another speed for sure.

X (formerly Twitter)

antirez (@antirez)

DS4 관련 글을 읽고, 작성자가 자신의 GGUF 2-bit 양자화 모델을 지금 바로 실행할 수 있다고 알리며 llama.cpp 기반 DeepSeek V4 Flash용 저장소를 공유했다. 또한 곧 수직형 DS4 추론 엔진을 출시할 예정이라고 밝혀 오픈소스 추론 도구의 신규 발전을 예고했다.

https://x.com/antirez/status/2050628563380920509

#llamacpp #gguf #quantization #deepseek #opensource

antirez (@antirez) on X

@simonw Hi! Just read your post on DS4, please note that you can run my GGUF 2-bit quantized right now if you wish: https://t.co/etJop0b3VX And a vertical ds4 inference engine is coming soon, I'm on it. https://t.co/G3JkWaoLXk

X (formerly Twitter)
GestaltLabs/Nemostein-3-Nano-Omni-30b-a3b · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

金のニワトリ (@gosrum)

Mistral-Medium-3.5-128B의 GGUF 지원이 아직 진행 중이라고 언급했으며, Mac Studio에서 Q4_K_XL을 로드할 때 메모리 부족으로 재시작이 발생했다고 보고했습니다. 모델 배포 호환성과 로컬 실행 한계를 보여주는 내용입니다.

https://x.com/gosrum/status/2049645163132354957

#mistral #gguf #macstudio #llm #localai

金のニワトリ (@gosrum) on X

と思ったのだが、どうやらMistral-Medium-3.5-128BはGGUF supportがまだ進行中らしい あとそれと関係あるかわからないが、Mac StudioでQ4_K_XLをロードしたらメモリが不足して強制的に再起動されてしまった😇

X (formerly Twitter)

Sudo su (@sudoingX)

NVIDIA 사전 브리핑에서 봤던 멀티모달 모델을 텍스트, 이미지, 오디오, 비디오, 도구 호출까지 NIM 호스팅 엔드포인트로 모두 검증했고, Unsloth가 같은 날 GGUF를 공개해 로컬 실행도 가능해졌다.

https://x.com/sudoingX/status/2049191619723980966

#nvidia #nim #unsloth #multimodal #gguf

Sudo su (@sudoingX) on X

i had this model in nvidia's pre-brief last week. tested all 5 modalities through their hosted nim endpoint, text + image + audio + video + tool calling all verified end to end before the lifted tonight. now unsloth dropped the ggufs day-zero, which means it runs local on

X (formerly Twitter)