Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine

Год назад запуск модели на 35 миллиардов параметров подразумевал облако, очередь на GPU, и счёт от провайдера в конце месяца. Сегодня я покажу, как мы сделали это на одной потребительской видеокарте AMD за $500 — без ROCm, без CUDA, без MLX, одним бинарником на Zig. Это пост про ZINC — inference engine, который мы строим с нуля под железо, которое люди реально покупают. Не как proof of concept, а как рабочий инструмент с OpenAI-совместимым API, потоковой генерацией и встроенным чатом. Погрузиться

https://habr.com/ru/articles/1020702/

#LLM #inference #AMD #Vulkan #Zig #Metal #GPU #local_AI #Qwen #MoE

Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine

Год назад запуск модели на 35 миллиардов параметров подразумевал облако, очередь на GPU, и счёт от провайдера в конце месяца. Сегодня я покажу, как мы сделали это на одной потребительской видеокарте...

Хабр

CHOI (@arrakis_ai)

엔비디아의 TurboQuant 관련 기술 변화나 최적화 기법이 주목받는지 암시하는 트윗으로, AI 하드웨어/추론 효율화 맥락에서 의미가 있습니다.

https://x.com/arrakis_ai/status/2041482999972368691

#nvidia #turboquant #quantization #ai #inference

CHOI (@arrakis_ai) on X

Nvidia's TurboQuant moment?

X (formerly Twitter)

TriAttention을 오픈소스로 공개했습니다. 24GB RTX 4090 한 대에서 32B LLM 'OpenClaw'를 배포할 수 있으며, 전체 코드가 오픈소스이고 vLLM 호환으로 원클릭 배포가 가능합니다. 추론 속도 2.5×, KV 캐시 메모리 10.7× 절감. TriAttention은 Pre‑RoPE 공간에서 삼각함수 기반의 KV 캐시 압축 기법입니다.

https://x.com/yukangchen_/status/2041366586423165152

#triattention #opensource #llm #inference #modelcompression

Yukang Chen (@yukangchen_) on X

We’re thrilled to open-source TriAttention! 🚀 🦞 Deploy OpenClaw (32B LLM) on a single 24GB RTX 4090 locally 💻Full code open-source & vLLM-ready for one-click deployment ⚡️ 2.5× faster inference speed & 10.7× less KV cache memory usage TriAttention is a novel KV cache

X (formerly Twitter)

#statstab #520 Reverse‐Bayes methods for evidence assessment and research synthesis

Thoughts: I was reminded of this paper on assessing the evidentiary value of a finding. What do ppl think?

#bayes #inference #evidence #probability #priors #sensitivity

https://doi.org/10.1002/jrsm.1538

Cursor (@cursor_ai)

warp decode라는 새로운 기술/방식에 대한 작업을 소개하는 트윗으로, 대규모 모델의 디코딩 성능 개선과 관련된 연구나 엔지니어링 성과를 알린다. 구체적 내용은 링크된 자료에서 확인하도록 안내하고 있다.

https://x.com/cursor_ai/status/2041260651746848998

#warpdecode #decoding #llm #inference #gpu

Cursor (@cursor_ai) on X

Read about our work on warp decode: https://t.co/YFIcFPkvku

X (formerly Twitter)

Cursor (@cursor_ai)

Blackwell GPU에서 MoE 모델의 토큰 생성 방식을 재구성해 추론 속도를 1.84배 높이고 출력 정확도도 개선했다. 이 개선은 Composer 학습에도 직접 반영되어, 더 자주 향상된 모델 버전을 배포할 수 있게 한다.

https://x.com/cursor_ai/status/2041260649267986643

#moe #blackwell #inference #gpu #llm

Cursor (@cursor_ai) on X

We rebuilt how MoE models generate tokens on Blackwell GPUs, resulting in 1.84x faster inference and more accurate outputs. These improvements directly contribute to how we train Composer, allowing us to ship improved versions of the model more often.

X (formerly Twitter)

NVIDIA GTC (@NVIDIAGTC)

CoreWeave의 Chen Goldberg가 NVIDIA GTC Studio에서 CoreWeave AI 클라우드가 생산 규모의 학습, 추론, 차세대 AI 애플리케이션을 어떻게 지원하는지 소개했다. NVIDIA 기술 기반의 AI 클라우드 인프라 활용 사례를 보여주는 내용이다.

https://x.com/NVIDIAGTC/status/2041199255751147861

#coreweave #nvidia #aicloud #training #inference

NVIDIA GTC (@NVIDIAGTC) on X

Chen Goldberg from @CoreWeave dropped by the #NVIDIAGTC Studio to discuss how CoreWeave’s AI cloud ☁️ , built on NVIDIA technology, powers production-scale training, inference, and next-gen AI applications. ▶️ Catch up on the episode: https://t.co/MlODzYGvsB

X (formerly Twitter)

NVIDIA Data Center (@NVIDIADC)

NVIDIA는 소프트웨어 최적화를 통해 토큰 처리량을 높여 AI 추론/학습의 토큰당 비용을 낮춘다고 강조했다. 사용자가 NVIDIA GPU에 투자한 순간부터 성능 효율과 가치를 끌어올리는 ‘극단적 공동 설계’ 전략을 소개한 내용이다.

https://x.com/NVIDIADC/status/2041246539289395682

#nvidia #gpu #llm #inference #optimization

NVIDIA Data Center (@NVIDIADC) on X

We deliver the lowest token cost through extreme co-design. As NVIDIA software optimizations increase token throughput, the value of your NVIDIA GPUs grows from the moment you invest in them. Learn more ➡️ https://t.co/tIA7lZUupF

X (formerly Twitter)

AISatoshi (@AiXsatoshi)

Gemma-4-26B awq가 1119 tok/s 속도로 빠르다고 평가했습니다. 양자화된 Gemma 계열 모델의 높은 추론 성능을 강조한 내용입니다.

https://x.com/AiXsatoshi/status/2040771081628442895

#gemma #awq #llm #inference #performance

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

Gemma-4-26B (awq) は速さがgood! 1119 tok/s🚀

X (formerly Twitter)

AISatoshi (@AiXsatoshi)

Gemma-4-26B awq 모델의 처리 속도가 GPU 4장 기준 약 4800 tok/s로 보고되었습니다. 경량화/양자화된 대형 모델의 추론 성능이 매우 인상적인 사례입니다.

https://x.com/AiXsatoshi/status/2040787190536655302

#gemma #awq #llm #inference #gpu

AI✖️Satoshi⏩️ (@AiXsatoshi) on X

Gemma-4-26B(awq) 4800tok/sぐらい。GPU x4

X (formerly Twitter)