Arint - SEO+KI (@[email protected])

<p>RT @Maor_Elkarat: Hör auf, mehr VRAM zu kaufen.</p> <p><a href="https://arint.info/@Arint/116527049491718972">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#4Bit #AI #Grok #KVCache #Qwen36 #VRAM #arint_info</p> <p><a href="https://x.com/Maor_Elkarat/status/2050866949643477241#m">https://x.com/Maor_Elkarat/status/2050866949643477241#m</a></p>

Mastodon Glitch Edition

Sudo su (@sudoingX)

단일 GPU 환경에서 TurboQuant 또는 KV-cache 압축 기법으로 매우 높은 성능을 달성한 사례가 있으면 공유해 달라는 요청이다. 실제로 효과가 검증되면 직접 테스트하고, 결과를 공개해 다음 개발자들이 참고할 수 있게 하겠다고 밝혔다.

https://x.com/sudoingX/status/2051747777814909353

#kvcache #quantization #gpu #llm #optimization

Sudo su (@sudoingX) on X

if you or someone you know has hit real crazy numbers on a single gpu setup with turboquant or any kv-cache compression scheme, point me. i will test it on my machines. if it delivers, i amplify you and your work, and ship the receipts publicly so the next builder does not have

X (formerly Twitter)
Arint - SEO+KI (@[email protected])

<p>RT @Maor_Elkarat: TRANSLASTION: Hör auf, mehr VRAM zu kaufen.</p> <p><a href="https://arint.info/@Arint/116520454307522296">mehr</a> auf <a href="https://arint.info/">Arint.info</a></p> <p>#4BitWeights #AIoptimierung #DeepLearning #KVCache #Qwen36 #VRAM #arint_info</p> <p><a href="https://x.com/Maor_Elkarat/status/2050866949643477241#m">https://x.com/Maor_Elkarat/status/2050866949643477241#m</a></p>

Mastodon Glitch Edition

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет почти линейно и может стать сопоставимым или даже превышать размер самой модели. В основе этой проблемы лежит KV-cache. Пример : у LLaMA 2 7B веса занимают около 14 ГБ, но при контексте 8K токенов KV-cache весит уже примерно 4 ГБ. Всего при четырех параллельных запросах это около 16 ГБ. Это и есть скрытая цена инференса, которая не так очевидна на первый взгляд.

https://habr.com/ru/companies/ru_mts/articles/1029644/

#LLM #KVcache #инференс_LLM #стоимость_LLM #оптимизация_инференса

Скрытая цена LLM: как KV-cache увеличивает стоимость инференса и как эту проблему решает Google TurboQuant

При инференсе LLM общее потребление памяти определяется не только размером самой модели, но и промежуточными данными, накапливаемыми в процессе ее работы. С ростом контекста объем этих данных растет...

Хабр

Ivan Fioravanti ᯅ (@ivanfioravanti)

Qwen3.6-27B dense가 Qwen3.6-35B-A3B보다 양자화(quantization) 영향이 덜한 것으로 보인다는 성능 비교 내용이다. 32K 컨텍스트에서의 영향과 KV 캐시 양자화까지 적용했을 때의 성능 저하를 추가로 실험해보겠다는 AI 모델 최적화 관련 관찰이다.

https://x.com/ivanfioravanti/status/2049879644816482500

#qwen #quantization #llm #kvcache #contextwindow

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

Qwen3.6-27B dense is less impacted by quantization compared to Qwen3.6-35B-A3B looking at these charts. Now I'm curious to see the impact on a 32K context, this is where gap will wide like crazy. And if we add KV Cache quantization we are completely lost. Let's try and see.

X (formerly Twitter)

Z.ai (@Zai_org)

긴 컨텍스트 코드 에이전트 서빙에서 프리필 처리량과 GPU 메모리 압박을 해결하기 위해 LayerSplit이라는 레이어 단위 KV 캐시 저장 기법을 도입했다고 소개합니다. GPU마다 모든 레이어를 복제하지 않는 방식으로 서빙 효율을 높이려는 인프라 개선 사례입니다.

https://x.com/Zai_org/status/2049601050668069322

#kvcache #inference #gpu #codingagent #optimization

Z.ai (@Zai_org) on X

After fixing correctness issues, we turned to the next bottleneck: Prefill throughput and GPU memory pressure in long-context Coding Agent serving. To address this, we introduced LayerSplit, a layer-wise KV Cache storage scheme. Instead of duplicating all layers on every GPU,

X (formerly Twitter)

Suresh (@_Suresh2)

온디바이스 LoRA는 여전히 전체 베이스 모델을 로드해야 하며, 어댑터가 KV 캐시 크기도 줄여주지 않는다는 기술적 한계를 지적한다. 경량 추론과 메모리 최적화 측면에서 중요한 개발 이슈다.

https://x.com/_Suresh2/status/2049275115158815208

#lora #ondevice #llm #kvcache #inference

Suresh (@_Suresh2) on X

@fly51fly lora on device still loads the full base model, and the adapters don't shrink the kv cache either

X (formerly Twitter)

Dan McAteer (@daniel_mac8)

HyLo(Hybrid Long-context)가 Transformers 기반 모델을 처음부터 재학습하지 않고도 유효 컨텍스트 길이를 32배 늘리고 KV-cache를 90% 줄였다고 소개했다. 장문 처리 효율을 크게 개선하는 하이브리드 구조로, 미래 ASI는 순수 Transformer가 아닐 수 있다는 전망도 제시했다.

https://x.com/daniel_mac8/status/2049180066597277727

#longcontext #transformer #hylo #kvcache #ai

Dan McAteer (@daniel_mac8) on X

32x effective context length + 90% KV-cache reduction with HyLo: Hybrid Long-context. Importantly, done *without* training the Transformers based model from scratch. Prediction: > ASI will not be pure Transformers. It will be hybrid.

X (formerly Twitter)

Bnaf.OG | (@bnafOg)

ts-bench와 SWE-Bench 점수 차이는 하네스와 작업 분포가 달라 예상 가능한 차이라고 언급한다. 핵심은 V4 Pro의 MLA/압축 KV-cache 덕분에 10만 토큰 이상의 장문 컨텍스트에서 Kimi-K2.6 대비 동시성 우위가 더 커질 수 있다는 점이며, 이 부분을 따로 검증할 가치가 있다고 본다.

https://x.com/bnafOg/status/2048041513817375028

#llm #longcontext #kvcache #benchmark #aiinference

Bnaf.OG | 🟧 (@bnafOg) on X

@gosrum ts-bench vs SWE-Bench score gaps are expected — different harness, different task distribution. The real signal: V4 Pro's MLA/compressed KV-cache means at long context (100K+) its concurrency advantage over Kimi-K2.6 should grow. Worth isolating that specifically.

X (formerly Twitter)

KV-кэш, экспертное сообщество и критическое мышление

Меня давно волновала одна деталь в устройстве современных трансформеров (тех самых, которые GPT, Sonnet и прочие). Механизм внимания всегда работает только назад. От многих экспертов (включая курс Эндрю Ына на Курсере) я слышал такое объяснение: Слово не может ссылаться на слова, которые оно ещё не знает. Назвается это казуальностью (причинностью). Но ведь в предложении “Зелёное яблоко лежит на столе” слово зелёное уже знает про слово “яблоко”, но не может на него сослаться. Непонятно Провёл небольшой эксперимент и подключил нечеловеческий мозг.

https://habr.com/ru/articles/1026486/

#kvcache #chatgpt #sonnet #mistral

KV-кэш, экспертное сообщество и критическое мышление

Меня давно волновала одна деталь в устройстве современных трансформеров (тех самых, которые GPT, Sonnet и прочие). Механизм внимания всегда работает только назад. От многих экспертов (включая курс...

Хабр