Deedy (@deedydas)

LLM 추론 성능을 크게 끌어올린 블로그 글이 소개됐다. 표준 GPU 환경에 2GB SRAM/chip Corsairs를 더해 speculative decoding을 수행해 지연시간을 10배 줄이고 초당 1400 토큰 이상을 달성했다는 내용으로, gpt-oss-120b 추론 최적화 사례로 주목된다.

https://x.com/deedydas/status/2040083405841568115

#llm #inference #optimization #speculativedecoding #gpu

Deedy (@deedydas) on X

This is the best blog post on LLM inference I've seen this year. They achieved 10x latency and >1400 tokens/sec by moving speculative decode onto two 2GB SRAM/chip Corsairs, a small cost on top of a standard GPU setup on gpt-oss-120b. This performance at this price is insane.

X (formerly Twitter)

fly51fly (@fly51fly)

Microsoft Research Asia와 Peking University 공동 저자들이 발표한 논문 'Learning to Draft: Adaptive Speculative Decoding with Reinforcement Learning'는 강화학습을 활용한 적응적 speculative decoding 접근을 제안하는 연구입니다(ArXiv, 2026). 디코딩 속도·품질 향상 관련 새로운 방법론을 다룹니다.

https://x.com/fly51fly/status/2028956988995190960

#speculativedecoding #reinforcementlearning #llm #research

fly51fly (@fly51fly) on X

[CL] Learning to Draft: Adaptive Speculative Decoding with Reinforcement Learning J Zhang, Z Yu, L Wang, N Yang… [Microsoft Research Asia & Peking University] (2026) https://t.co/OTxG6Fydal

X (formerly Twitter)

New research shows how speculative decoding trains a draft model to guess tokens, then verifies them with the main LLM—cutting compute and boosting token generation speed. The approach promises big gains in model efficiency and opens doors for open‑source AI training. Dive into the details! #SpeculativeDecoding #TokenGeneration #ModelEfficiency #OpenSourceAI

🔗 https://aidailypost.com/news/speculative-decoding-trains-drafter-guess-verify-llm-outputs

Researchers have discovered a clever trick: by embedding a mask token directly into the weight matrix, they can bypass the costly embedding lookup and generate up to three times faster token streams. The method works with parallel computation and speculative decoding, promising big gains for open‑source LLMs. Read on to see how ConfAdapt powers this speed‑up. #LLMinference #SpeculativeDecoding #MultiTokenPrediction #ModelAcceleration

🔗 https://aidailypost.com/news/researchers-embed-mask-token-llm-weights-achieve-3-faster-inference

Minko Gechev (@mgechev)

개발자 경험 향상을 위해 지연(latency) 감소와 그라운딩(grounding) 개선이 중요하다는 관점에서 관련 자료들을 소개: NVIDIA의 'Speculative Decoding' 소개 글(추론 지연 감소를 위한 방법), Avenir-Web(사람 경험을 모사하는 멀티모달 웹 에이전트, arXiv 논문) 등을 링크로 공유함.

https://x.com/mgechev/status/2023919132480336233

#speculativedecoding #nvidia #avenirweb #multimodal #inference

Minko Gechev (@mgechev) on X

Improving the developer experience means reducing latency and improving grounding: - Introduction to Speculative Decoding for faster inference. https://t.co/lb4uILDAhi - Avenir-Web: Human-experience-imitating multimodal web agents. https://t.co/0UD12cXEZ1 - Introducing the

X (formerly Twitter)
The Hidden Engineering Behind Fast AI: How LLM Inference Actually Works

A deep dive into PagedAttention, speculative decoding, FlashAttention, and continuous batching — the clever tricks that make modern LLMs respond in milliseconds instead of minutes.

TechLife
DFlash: Hệ thống giải mã suy đoán theo kiểu khuếch tán, tạo block token cùng lúc thay vì từng token. Dùng draft model nhẹ để tạo block, kiểm nghiệm bằng LLM đích – tăng độ chấp nhận và hiệu suất, đặc biệt với văn cảnh dài & batch lớn. Hỗ trợ Qwen3-4B/8B/30B, tích hợp với SGLang, hỗ trợ streaming và sinh code dài. Hiệu quả cao trong sinh code và đầu ra cấu trúc. Code, checkpoint đã công bố, hướng dẫn huấn luyện sắp ra mắt. #DFlash #LLM #SpeculativeDecoding #Qwen3 #SGLang #AI #MachineLearning #Trí

DFlash: Hệ thống giải mã giả định theo phong cách khuếch tán, tạo khối token cùng lúc thay vì từng token. Dựa trên Qwen3 (4B, 8B, Coder-30B) và tích hợp với SGLang, cho tốc độ nhanh hơn, độ chấp nhận cao hơn – lý tưởng cho sinh mã và đầu ra cấu trúc. Hỗ trợ streaming, batch lớn. Mã nguồn đã mở, hướng dẫn train sắp ra mắt. #DFlash #LLM #AI #SpeculativeDecoding #Qwen3 #SGLang #TríTuệNhânTạo #MôHìnhNgônNgữ #GiảiMãKhối #KhuếchTán

https://www.reddit.com/r/LocalLLaMA/comments/1qkmzqv/dflash_diffusion

Cerebras (@cerebras)

Cerebras의 하드웨어뿐 아니라 소프트웨어 최적화에 관한 소개입니다. Ryan Loney가 GPU 대비 LLM 추론을 20× 빠르게 만드는 숨겨진 최적화(예: speculative decoding, token reuse)와 토큰 재사용 기법 등을 해설하며 향후 발전 가능성을 강조하는 영상/기사 소개입니다.

https://x.com/cerebras/status/2010855964682154094

#cerebras #llm #inference #speculativedecoding

Cerebras (@cerebras) on X

Everyone talks about our hardware @Cerebras. Few notice the software. Ryan Loney breaks down the hidden optimizations powering 20× faster LLM inference than GPUs, speculative decoding, token reuse, and why we’re just getting started. Watch the full story here

X (formerly Twitter)

코드 작성 AI가 2.3배 빨라진다: 디퓨전 모델의 구조화 마법

텍스트 디퓨전 모델이 코드 생성 시 기존 방식보다 2.33배 빠른 이유. 구조화된 출력과 병렬 디코딩의 관계를 실험 데이터로 분석합니다.

https://aisparkup.com/posts/7454