Tibo (@thsottiaux)

Codex 등 AI 서비스 수요가 급증하면서 AI 기업들이 공급보다 수요가 빠르게 늘어나는 국면에 들어섰다는 의견이다. 이에 따라 가장 중요한 것은 충분한 컴퓨팅 용량과 더 효율적인 모델이며, 작성자는 두 요소를 모두 갖추고 있다고 강조한다.

https://x.com/thsottiaux/status/2040230479392395539

#codex #ai #inference #scaling #efficiency

Tibo (@thsottiaux) on X

From the surge in demand on Codex and many other services, it is clear that AI companies are going to go through a phase of demand outpacing supply. Two things will be most important, having the most capacity and having the most efficient models. I believe we have both.

X (formerly Twitter)

Deedy (@deedydas)

LLM 추론 성능을 크게 끌어올린 블로그 글이 소개됐다. 표준 GPU 환경에 2GB SRAM/chip Corsairs를 더해 speculative decoding을 수행해 지연시간을 10배 줄이고 초당 1400 토큰 이상을 달성했다는 내용으로, gpt-oss-120b 추론 최적화 사례로 주목된다.

https://x.com/deedydas/status/2040083405841568115

#llm #inference #optimization #speculativedecoding #gpu

Deedy (@deedydas) on X

This is the best blog post on LLM inference I've seen this year. They achieved 10x latency and >1400 tokens/sec by moving speculative decode onto two 2GB SRAM/chip Corsairs, a small cost on top of a standard GPU setup on gpt-oss-120b. This performance at this price is insane.

X (formerly Twitter)

NVIDIA (@nvidia)

엔비디아가 토큰당 비용이 세계 최저 수준이라고 강조했다. 제نسen Huang은 이는 단순한 연산 자원 문제가 아니라 아키텍처 최적화와 하드웨어-소프트웨어 공동 설계의 결과라고 설명했다. 토큰 생성 비용과 성능 효율 측면에서 엔비디아의 경쟁력을 부각한 발표다.

https://x.com/nvidia/status/2040148759410081939

#nvidia #tokens #inference #hardware #ai

NVIDIA (@nvidia) on X

“NVIDIA’s cost per token is the lowest in the world.” — Jensen Huang, Founder & CEO of NVIDIA Token generation cost is a direct result of architecture excellence and extreme co-design, not just compute cost. Lowest cost per token and highest performance per watt are definitive

X (formerly Twitter)

Google AI Developers (@googleaidevs)

Gemini API에 비용과 안정성을 조절할 수 있는 새 추론 티어인 Flex와 Priority가 추가되었습니다. Flex는 비용 민감하고 지연 허용도가 높은 워크로드에 적합하며, Priority는 프리미엄 가격으로 가장 높은 신뢰성을 제공해 중요한 대화형 앱에 맞습니다.

https://x.com/googleaidevs/status/2039782721460027676

#geminiapi #inference #pricing #api #ai

Google AI Developers (@googleaidevs) on X

Balance cost & reliability with our new Flex & Priority inference tiers in the Gemini API! Flex: Pay 50% less for cost-sensitive & latency-tolerant workloads Priority: Highest reliability for your most critical, interactive apps (with premium pricing) Together with the async

X (formerly Twitter)

NVIDIA (@nvidia)

NVIDIA의 Jensen Huang 발언을 인용하며, AI 추론 시대가 본격화되는 전환점을 맞았다고 강조한다. 하드웨어와 소프트웨어의 극단적 공동 설계를 통해 AI의 활용이 학습 중심에서 실제 실행 중심으로 이동하는 중요한 이정표를 언급한다.

https://x.com/nvidia/status/2039767180158406961

#nvidia #jensenhuang #inference #aihardware #codesign

NVIDIA (@nvidia) on X

"The inflection point for inference has arrived." — Jensen Huang, Founder & CEO of NVIDIA   We’ve officially crossed a new milestone in the inference era — where widespread adoption of AI shifts from learning to doing. The breakthrough: extreme codesign across hardware and

X (formerly Twitter)

William Ruider (@ruider92545)

EXO Labs 1.0.69와 NVIDIA-Nemotron-3-Nano-30B-A3B 모델을 MLX 환경에서 실행해 높은 처리량을 보였다는 성능 공유 트윗입니다. 특히 Mac M1 Studio Max 단일/2대 구성에서 BF16 및 8-bit 추론 성능을 강조하며, 로컬 멀티노드 AI 실행 가능성을 보여줍니다.

https://x.com/ruider92545/status/2039453160318923241

#exo #nvidia #nemotron #mlx #inference

William Ruider (@ruider92545) on X

EXO Labs 1.0.69 and NVIDIA-Nemotron-3-Nano-30B-A3B-MLX-8Bit blown my mind yesterday with 58 TPS on single M1 Studio MAX. Take look on this: EXO Labs 1.0.69 and NVIDIA-Nemotron-3-Nano-30B-A3B-MLX-BF16 BF16 on 2x Mac M1 Studio MAX (2022) NO RDMA over TB4 - are you kidding me?!!!

X (formerly Twitter)

William Ruider (@ruider92545)

EXO Labs 1.0.69와 NVIDIA-Nemotron-3-Nano-30B-A3B-MLX 모델이 Apple M1 Studio MAX 단일 기기에서 초당 58토큰 처리 성능을 보였다는 내용입니다. BF16, 2대의 Mac M1 Studio MAX, RDMA 없이도 높은 추론 성능을 보여 주목됩니다.

https://x.com/ruider92545/status/2039453160318923241

#exo #nvidia #nemotron #mlx #inference

William Ruider (@ruider92545) on X

EXO Labs 1.0.69 and NVIDIA-Nemotron-3-Nano-30B-A3B-MLX-8Bit blown my mind yesterday with 58 TPS on single M1 Studio MAX. Take look on this: EXO Labs 1.0.69 and NVIDIA-Nemotron-3-Nano-30B-A3B-MLX-BF16 BF16 on 2x Mac M1 Studio MAX (2022) NO RDMA over TB4 - are you kidding me?!!!

X (formerly Twitter)

NVIDIA Data Center (@NVIDIADC)

MLPerf Inference v6.0 결과가 공개됐으며, NVIDIA Blackwell 기반 시스템이 추론 성능에서 최고 수준의 AI 팩토리 처리량을 달성했다고 소개한다. 최신 AI 인퍼런스 벤치마크와 NVIDIA 하드웨어 성능 우위를 강조한 내용이다.

https://x.com/NVIDIADC/status/2039359226712097227

#mlperf #nvidia #blackwell #inference #benchmark

NVIDIA Data Center (@NVIDIADC) on X

📣 MLPerf Inference v6.0 results are in. Learn how systems powered by NVIDIA Blackwell set the pace on inference, delivering the highest AI factory throughput. 🔗 https://t.co/Abid9w6wx3

X (formerly Twitter)

NVIDIA (@nvidia)

NVIDIA는 MLPerf Inference v6.0에서 극한 수준의 공동 설계를 통해 다양한 모델에서 최고 토큰 출력 성능을 달성했다고 강조했다. AI 팩토리 생산성은 칩 사양보다 실제 성능이 더 중요하다는 메시지다.

https://x.com/nvidia/status/2039419585254875191

#nvidia #mlperf #inference #benchmark #ai

NVIDIA (@nvidia) on X

Delivered performance, not peak chip specifications, drives AI factory productivity. Rigorous benchmarks are the only way to see past the noise. In MLPerf Inference v6.0, NVIDIA extreme co-design delivered the highest token output across the broadest range of models and

X (formerly Twitter)

llama.cpp는 의존성 없는 C/C++ 기반 경량 LLM 추론 엔진으로, Apple Silicon·x86·RISC‑V 최적화, CUDA/HIP/MUSA GPU, Vulkan/SYCL, CPU+GPU 하이브리드, 1.5~8비트 양자화와 Hugging Face GGUF 지원을 제공한다. WebUI·OpenAI 호환 서버·다양한 모델과 언어 바인딩을 갖춘 ggml 개발 플랫폼으로 로컬·클라우드에서 손쉽게 고성능 추론을 구현할 수 있다.

https://github.com/TheTom/llama-cpp-turboquant

#llama #ggml #ai #inference #machinelearning

GitHub - TheTom/llama-cpp-turboquant: LLM inference in C/C++

LLM inference in C/C++. Contribute to TheTom/llama-cpp-turboquant development by creating an account on GitHub.

GitHub