Sudo su (@sudoingX)
에이전트가 llama.cpp의 CUDA C++ 디스패치 훅과 mmqcu 패치를 작성해 Q8 matmul을 자체 최적화 커널로 라우팅하고 있다. 27B 모델이 DGX Spark에서 추론 엔진 자체를 수정하는 모습이 인상적인 사례로 소개된다.
Sudo su (@sudoingX)
에이전트가 llama.cpp의 CUDA C++ 디스패치 훅과 mmqcu 패치를 작성해 Q8 matmul을 자체 최적화 커널로 라우팅하고 있다. 27B 모델이 DGX Spark에서 추론 엔진 자체를 수정하는 모습이 인상적인 사례로 소개된다.
Sudo su (@sudoingX)
로컬 AI 개인 추론을 시작하려면 llama.cpp를 소스에서 직접 컴파일하라고 권장한다. LM Studio와 Ollama는 진입용 도구지만, 기본적으로 llama.cpp를 감싼 래퍼에 가깝다고 설명하며 로컬 추론의 핵심 도구로 강조한다.

anyone interested in or getting started with local ai personal inference, pay attention. start with the right practice. compile llama.cpp from source. i know lm studio and ollama exist. they're great onramps. but they're mostly wrappers around llama.cpp with abstraction layers
How LLM Inference Works
이 글은 LLM 추론 과정의 핵심 단계를 상세히 설명한다. 토큰화, 임베딩, 어텐션, 프리필(prefill)과 디코드(decode) 단계의 차이, 그리고 KV 캐시의 역할과 한계에 대해 다룬다. 특히 프리필 단계는 GPU 연산 집약적이고, 디코드 단계는 메모리 대역폭이 병목이 되는 점을 강조하며, 긴 컨텍스트 처리에서 캐시 최적화가 중요함을 설명한다. 또한, 캐시 크기를 줄이기 위한 최신 연구 동향과 양자화 기법도 소개한다.
https://twitter.com/akshay_pachaar/status/2050941458614751327
Windsurf (@windsurf)
Windsurf가 Cerebras와 협력해 SWE-1.6 Fast Mode용 무료 Windsurf 플랜을 제공한다고 발표했다. 최대 초당 1000 토큰 처리 속도를 지원하며, Cerebras 추론 기술을 기반으로 개발·계획 작업을 더 빠르게 수행할 수 있다.
Jeff Wang (@jeffwsurf)
Cerebras가 SWE-1.6 Fast Mode에서 매우 빠른 성능을 제공한다고 언급했다. AI 추론 기반의 고속 모드가 개발 및 계획 작업에서 유용한 속도를 제공한다는 점이 핵심이다.
Tom Maiaroto (@tmaiaroto)
컨텍스트 윈도우를 256k로 확장했는데도 여전히 93~95 tokens/sec 속도를 유지한다는 성능 테스트 결과입니다. 매우 긴 컨텍스트에서도 추론 속도가 안정적으로 유지된다는 점이 인상적입니다.
Tom Maiaroto (@tmaiaroto)
Atomic의 E4B 설정에서 128k 컨텍스트 윈도우로 약 96 tokens/sec 성능을 달성했다는 공유입니다. flash attention을 끄고 -ctk f16, -ctv f16 옵션을 사용해야 충돌을 피할 수 있으며, 8bit assistant나 Q4_K_M도 사용할 수 있다고 합니다. llama-swap 기반 테스트 결과입니다.

@ItsmeAjayKV @UnslothAI @googlegemma Ok, finally got the magic settings for E4B with Atomic's stuff. About 96 tokens/sec with 128k context window. Keep flash attention off and use -ctk f16 -ctv f16 otherwise it crashes (or did for me). I also use the 8bit assistant but Q4_K_M works too. This is from my llama-swap
Youssof Altoukhi (@Youssofal_)
Mac에서 동작하는 MTP 솔루션 MTPLX V0.2가 공개됐다. Qwen 3.6 27B 기준으로 OMLX 대비 디코드 처리량이 30~40% 빠르고 메모리 사용량은 5~10% 낮아, 로컬 대형모델 추론 최적화 도구로 의미가 크다.

Introducing MTPLX V0.2 The Fastest MTP On Mac Qwen 3.6 27B: - 30-40% Faster Decode TPS VS OMLX - 5-10% Lower Memory Usage VS OMLX - Only 5 - 10% Worse Prefill Speeds At Long Contexts. Big thank you to @ivanfioravanti who gave me lots of useful benchmark data!
DS4, a specialized inference engine for DeepSeek v4 Flash
DS4는 DeepSeek v4 Flash를 위한 특화된 로컬 추론 엔진으로, llama.cpp와 GGML 프로젝트의 기여를 기반으로 개발되었습니다. Metal GPU 환경에서 최적화된 추론을 지원하며, 오픈소스 형태로 GitHub에 공개되어 AI 개발자들이 직접 활용할 수 있습니다. 이 엔진은 특히 경량화된 LLM 추론에 관심 있는 개발자들에게 유용한 도구입니다.
Show HN: Gosd: High-performance Stable Diffusion inference in pure Go(no CGO)
gosd는 Go 언어로 작성된 순수 Go 바인딩으로, stable-diffusion.cpp를 기반으로 한 고성능 Stable Diffusion 추론을 지원합니다. CGO 없이 FFI 기반으로 구현되어 Windows, Linux, Mac에서 크로스플랫폼으로 동작하며, C++ 컴파일러 없이 Go 프로젝트에 쉽게 통합할 수 있습니다. 이미지 및 비디오 생성, 편집, 전처리 기능을 제공하며, 여러 모델을 지원합니다. CPU만으로도 실행 가능하지만 GPU 사용 시 속도가 크게 향상됩니다.
https://github.com/l8bloom/gosd
#stablediffusion #go #inference #multimodal #imagegeneration