How LLM Inference Works

이 글은 LLM 추론 과정의 핵심 단계를 상세히 설명한다. 토큰화, 임베딩, 어텐션, 프리필(prefill)과 디코드(decode) 단계의 차이, 그리고 KV 캐시의 역할과 한계에 대해 다룬다. 특히 프리필 단계는 GPU 연산 집약적이고, 디코드 단계는 메모리 대역폭이 병목이 되는 점을 강조하며, 긴 컨텍스트 처리에서 캐시 최적화가 중요함을 설명한다. 또한, 캐시 크기를 줄이기 위한 최신 연구 동향과 양자화 기법도 소개한다.

https://twitter.com/akshay_pachaar/status/2050941458614751327

#llm #inference #attention #kvcache #quantization

Akshay 🚀 (@akshay_pachaar) on X

How LLM Inference Works

X (formerly Twitter)

Pushing Local Models with Focus and Polish

Armin Ronacher는 로컬 AI 모델 사용 경험을 개선하는 데 집중하고 있다. 현재 로컬 모델 실행은 가능하지만, 복잡한 설정과 조합 문제로 인해 사용자 경험이 부족하다. 그는 특정 모델과 하드웨어 조합에 집중해 완성도 높은 로컬 추론 환경을 만드는 것이 중요하다고 강조하며, 이를 위해 Salvatore Sanfilippo의 ds4.c 엔진과 Pi 에이전트 통합 확장 pi-ds4를 소개한다. 이 접근법은 복잡성을 한 곳에 모아 개선하고, 호스팅 모델과 비슷한 수준의 도구 호출 성능과 사용 편의성을 목표로 한다. 궁극적으로 더 많은 개발자가 로컬 모델을 쉽게 실험하고 활용할 수 있도록 하는 것이 목표다.

https://lucumr.pocoo.org/2026/5/8/local-models/

#localinference #aiagents #modelserving #macos #quantization

Pushing Local Models With Focus And Polish

Local models need focus and polish.

Armin Ronacher's Thoughts and Writings

Tom Maiaroto (@tmaiaroto)

Atomic의 E4B 설정에서 128k 컨텍스트 윈도우로 약 96 tokens/sec 성능을 달성했다는 공유입니다. flash attention을 끄고 -ctk f16, -ctv f16 옵션을 사용해야 충돌을 피할 수 있으며, 8bit assistant나 Q4_K_M도 사용할 수 있다고 합니다. llama-swap 기반 테스트 결과입니다.

https://x.com/tmaiaroto/status/2052650641802383456

#llm #inference #quantization #flashattention #llama

Tom Maiaroto (@tmaiaroto) on X

@ItsmeAjayKV @UnslothAI @googlegemma Ok, finally got the magic settings for E4B with Atomic's stuff. About 96 tokens/sec with 128k context window. Keep flash attention off and use -ctk f16 -ctv f16 otherwise it crashes (or did for me). I also use the 8bit assistant but Q4_K_M works too. This is from my llama-swap

X (formerly Twitter)

Quantizing Tangent Frames

이 글은 3D 그래픽스에서 정점의 접선 공간(tangent frames)을 효율적으로 양자화하는 다양한 기법을 비교 분석한다. 저자는 정규 직교 접선 공간을 전제로, 8바이트 기준 SNORM10x6, 4바이트 기준 옥타헤드럴 인코딩, 쿼터니언 인코딩 등 여러 방법의 각도 오차를 측정했다. 특히 쿼터니언 인코딩에서 10비트 3축+2비트 축 인덱스 방식이 4바이트 내에서 비교적 낮은 오차를 보이며 실용적임을 제시한다. 이 연구는 GPU에서 접선 공간을 저장할 때 메모리 절약과 품질 간 균형을 고민하는 그래픽스 및 AI 에이전트 개발자에게 유용하다.

https://zeux.io/2026/04/30/quantizing-tangent-frames/

#graphics #quantization #tangentframes #encoding #gpu

Quantizing tangent frames

I’ve been working on tangent space generation recently, and also pondering the tradeoffs between QTangent and normal-angle storage. So when, in a completely unrelated discussion, someone said “you could store tangent and normal as two RGB10A2 attributes”, I decided I should measure this once and for all and write it up.

DeepSeek 4 Flash local inference engine for Metal

DeepSeek V4 Flash를 위한 Metal 기반 로컬 추론 엔진 ds4.c가 공개되었다. 이 엔진은 DeepSeek V4 Flash 모델에 특화되어 있으며, 1백만 토큰의 대용량 컨텍스트 윈도우와 2비트 양자화를 지원해 MacBook과 Mac Studio 같은 고성능 개인용 기기에서 긴 문맥 추론을 가능하게 한다. KV 캐시를 디스크에 압축 저장하는 혁신적 접근으로 메모리 부담을 줄였으며, GPT 5.5의 도움을 받아 개발되었다. 현재는 Metal 전용이며 CPU 경로는 안정성 문제로 제한적이다. 이 프로젝트는 llama.cpp와 GGML 생태계에 크게 의존하며, 향후 CUDA 지원 가능성도 열려 있다.

https://github.com/antirez/ds4

#localinference #metal #deepseek #quantization #llm

GitHub - antirez/ds4: DeepSeek 4 Flash local inference engine for Metal

DeepSeek 4 Flash local inference engine for Metal. Contribute to antirez/ds4 development by creating an account on GitHub.

GitHub

Shivay Lamba (@HowDevelop)

AI Engineer Melbourne 행사에서 엣지 환경을 위해 AI 모델을 distill 및 quantize하는 방법을 발표한다는 소식입니다. 경량화 모델과 온디바이스/엣지 배포에 관심 있는 개발자에게 유용한 내용입니다.

https://x.com/HowDevelop/status/2051893884767363475

#aiengineering #distillation #quantization #edgeai #models

Shivay Lamba (@HowDevelop) on X

Super stoked to speak at @aiDotEngineer (AI Engineer) Melbourne next month on how to distill and quantize AI models for the edge!

X (formerly Twitter)

Sudo su (@sudoingX)

단일 GPU 환경에서 TurboQuant 또는 KV-cache 압축 기법으로 매우 높은 성능을 달성한 사례가 있으면 공유해 달라는 요청이다. 실제로 효과가 검증되면 직접 테스트하고, 결과를 공개해 다음 개발자들이 참고할 수 있게 하겠다고 밝혔다.

https://x.com/sudoingX/status/2051747777814909353

#kvcache #quantization #gpu #llm #optimization

Sudo su (@sudoingX) on X

if you or someone you know has hit real crazy numbers on a single gpu setup with turboquant or any kv-cache compression scheme, point me. i will test it on my machines. if it delivers, i amplify you and your work, and ship the receipts publicly so the next builder does not have

X (formerly Twitter)
TurboQuant compresses LLM KV-caches via 3-bit key & 2/4-bit value quantization, cutting memory use by up to 4.4×. Enables longer contexts & higher throughput under GPU constraints. Open-source (GPL-3.0). github.com/0xSero/turboquant #LLM #Inference #Quantization #vLLM #OpenSource

Simon Willison (@simonw)

IBM Granite 4.1 3B의 여러 양자화 버전에 동일한 SVG 생성 프롬프트를 실행해 비교한 실험이다. 모델/양자화에 따라 결과 차이를 관찰했지만, 기대만큼 흥미롭지는 않았다고 언급한다.

https://x.com/simonw/status/2051449431686525102

#ibm #granite #quantization #llm #svg

Simon Willison (@simonw) on X

I tried running the same "Generate an SVG of a pelican riding a bicycle" prompt against 21 different quantized variants of the same IBM Granite 4.1 3B model - the results weren't as interesting as I had hoped https://t.co/rBvko3ZISM

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

Qwen3.6-35B-A3B-GGUF의 UD-Q4_K_XL 양자화 버전을 언급하며, 속도가 확실히 더 빠르다고 평가합니다. 경량화된 오픈 모델 추론 성능 개선과 관련된 실사용 인상입니다.

https://x.com/ivanfioravanti/status/2051407374682910836

#qwen #gguf #quantization #llm #opensource

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

Here Qwen3.6-35B-A3B-GGUF:UD-Q4_K_XL another speed for sure.

X (formerly Twitter)