Google Research (@GoogleResearch)

Google이 TurboQuant라는 새 압축 알고리즘을 공개했다. LLM의 key-value cache 메모리를 최소 6배 줄이고 최대 8배 속도를 높이며, 정확도 손실 없이 AI 효율성을 크게 개선한다고 밝혔다. LLM 추론 최적화와 메모리 절감 측면에서 매우 중요한 기술 발표다.

https://x.com/GoogleResearch/status/2036533564158910740

#llm #compression #kvcache #inference #ai

Google Research (@GoogleResearch) on X

Introducing TurboQuant: Our new compression algorithm that reduces LLM key-value cache memory by at least 6x and delivers up to 8x speedup, all with zero accuracy loss, redefining AI efficiency. Read the blog to learn how it achieves these results: https://t.co/CDSQ8HpZoc

X (formerly Twitter)

AISatoshi (@AiXsatoshi)

GLM-5-Q3와 Qwen3.5-397B-Q6 두 모델이 각각 약 320GB 수준이라며, 512GB 메모리 Mac이나 380GB 워크스테이션에서 적합한 크기인지 비교하려는 내용이다. 로컬/대형 모델 실운용 관점에서 메모리 요구량과 사용성을 비교하는 트윗이다.

https://x.com/AiXsatoshi/status/2036598874316615707

#glm #qwen #localllm #inference #model

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

GLM-5-Q3と、Qwen3.5-397B-Q6が、ともに320GBくらい。512GBメモリMacや380GBワークステーションにベストサイズ。どちらがよいか?実運用での使用感で比較していく

X (formerly Twitter)

#statstab #511 Seven Myths of Randomisation
in Clinical Trials

Thoughts: Randomization is a very powerful tool for inference. Closest we have to magic in research. But it's also misunderstood.

#randomization #experiment #inference #design #bias #science

https://www.methodologyhubs.mrc.ac.uk/files/9214/3711/9501/Plenary-_Stephen_Senn.pdf

StepFun (@StepFun_ai)

StepFun Open Platform에서 Step Plan이 정식 출시됐다. Step 3.5 Flash를 모든 요금제에서 빠르게 사용할 수 있고, Cursor·Windsurf·Cline 등 주요 코딩 도구와 연동되며 락인 없이 사용 가능하다. 월 6.99달러부터 99달러까지 4개 요금제를 제공한다.

https://x.com/StepFun_ai/status/2035815197584023835

#ai #platform #coding #inference #llm

StepFun (@StepFun_ai) on X

Step Plan is now live on StepFun Open Platform!! Affordable OpenClaw and coding, all month. What you get: ⚡ Step 3.5 Flash, fast inference on every tier. 🔧 Works with Cursor, Windsurf, Cline, and your own stack. Zero lock-in. 💰 Four tiers from $6.99/mo to $99/mo. 🔜

X (formerly Twitter)

First Principles расчёт realtime видеогенерации

Сколько FLOPS нужно для генерации одной секунды видео в реальном времени? Можно ли достичь этого на одном GPU? А на телефоне? В этой статье я разбираю задачу realtime видеогенерации «от первых принципов» — начинаю с конкретной архитектуры (Wan2.1-14B), считаю FLOPS по каждому слою, калибрую по реальным замерам и последовательно применяю оптимизации: от FlashAttention и step distillation до квантизации и новых GPU. Спойлер: на серверах realtime уже почти здесь, а вот с мобилками всё сложнее.

https://habr.com/ru/articles/1013430/

#video_generation #diffusion #DiT #FLOPS #GPU #realtime #inference #Wan21

First Principles расчёт realtime видеогенерации

Сколько FLOPS нужно для генерации одной секунды видео в реальном времени? Можно ли достичь этого на одном GPU? А на телефоне? В этой статье я разбираю задачу realtime видеогенерации «от первых...

Хабр

Alex Cheema (@alexocheema)

MacBook 여러 대를 RDMA로 데이지 체인 연결해 최대 4대까지 1T 파라미터 모델을 선형 확장으로 실행할 수 있다는 내용입니다. 새로운 ‘LAN party’가 아닌 ‘RDMA party’라는 표현으로, 대형 모델 추론/병렬화에 MacBook과 RDMA를 활용하는 흥미로운 AI 인프라 사용 사례를 소개합니다.

https://x.com/alexocheema/status/2035901590314406206

#rdma #macbook #llm #tensorparallelism #inference

Github Awesome (@GithubAwesome)

400B 파라미터 규모의 모델을 로컬에서 실행하는 엔진 flash-moe가 소개됐다. 48GB RAM의 맥북 프로에서도 동작하며, 209GB 모델을 메모리에 모두 올리지 않고 SSD에서 GPU로 가중치를 필요할 때마다 스트리밍해 구동한다는 점이 핵심이다.

https://x.com/GithubAwesome/status/2035562403178438723

#localai #llm #moe #inference #macbook

Github Awesome (@GithubAwesome) on X

Running a 400-billion parameter model locally usually means a server rack. Someone just did it on a MacBook Pro with 48GB of RAM. The engine is called flash-moe. Instead of loading a 209GB model into memory, it streams weights from SSD to GPU on demand, pulling around five tokens

X (formerly Twitter)

Когда вычисления станут бесконечными: разбор интервью Илона Маска от 5.02.26

Маск говорит, что самое дешёвое место для размещения ИИ скоро будет в космосе. Звучит как очередной футуристический разгон, но за ним прячатся вполне земные проблемы: вычисления, память, энергия и пределы текущей инфраструктуры. В статье разбираю, какие из этих тезисов подтверждаются данными, а где футуризм уже начинает работать отделом продаж.

https://habr.com/ru/articles/1013460/

#elon_musk #ai_infrastructure #gpu #hbm #datacenter #energy #memory #spacex #inference

Когда вычисления станут бесконечными: разбор интервью Илона Маска от 5.02.26

Преамбула. Человек в очереди В 1937 году дальнобойщик Малком МакЛин простоял несколько часов на причале в Нью-Джерси — ждал, пока грузчики вручную перекладывают тысячи ящиков с его грузовика на борт...

Хабр

As local AI adoption accelerates, traditional cloud-only inference is no longer sufficient. This article explores how hybrid inference architecture—combining local models with cloud-scale intelligence—enables a new paradigm: the “token factory.”

Instead of treating AI as a monolithic service, this approach distributes token generation across edge devices and centralized systems, optimizing for latency, cost, and scalability. Local models handle high-throughput, low-latency token production, while larger models refine outputs only when necessary—dramatically reducing compute overhead and enabling real-time AI at scale.

With enterprises facing rising inference costs and privacy constraints, hybrid architectures are emerging as a practical solution—delivering near cloud-level performance while maintaining control over data and infrastructure.

https://www.buysellram.com/blog/hybrid-inference-architecture-why-the-token-factory-scales-as-local-ai-explodes/

#AIInfrastructure #NVIDIA #GTC2026 #HybridAI #GPU #DataCenter #Inference #ITAD #AgenticAI #LocalAIInference #TokenFactory #OnPremiseAI

Hybrid Inference Architecture: Why the Token Factory Scales as Local AI Explodes

Explore how Hybrid Inference Architecture balances local AI PCs with centralized Token Factories. Learn why the RTX 5090 and NVIDIA Rubin need each other.

BuySellRam