NVIDIA's Nemotron Nano 9B v2 Japanese ranks #1 sub-10B on Japan's Nejumi LB4 6× faster inference
than rivals. AdwaitX breaks down architecture, benchmarks & deployment options. Read now
#AdwaitX #NemotronNano #SovereignAI
https://www.adwaitx.com/nvidia-nemotron-nano-9b-v2-japanese-ai/
NVIDIA Nemotron Nano 9B v2 Japanese: Sovereign AI Explained

Explore NVIDIA's Nemotron Nano 9B v2 Japanese. See how this 9B-parameter model leads Japan's sub-10B AI category with hybrid architecture and native tool-calling. AdwaitX

AdwaitX

Awni Hannun (@awnihannun)

mlx-lm에서 SSMs를 이용해 continuous batching(연속 배칭)을 구현했으며, 64GB M4 Max에서 NVIDIA의 Nemotron Nano 모델을 동시에 실행하는 OpenCode 에이전트 4개를 구동한 기술적 업데이트를 공유함. Nemotron Nano는 MoE와 하이브리드 어텐션을 사용해 작은 머신에 적합하다고 설명됨.

https://x.com/awnihannun/status/2009399942469800431

#ssm #ml #nvidia #nemotronnano

Awni Hannun (@awnihannun) on X

Got continuous batching working with SSMs in mlx-lm. Here's four OpenCode agents simultaneously running Nvidia's Nemotron Nano on 64GB M4 Max. This is a nice model for smaller machines since it's MoE + hybrid attention (small cache).

X (formerly Twitter)

Định dạng GGUF có thể đã hỗ trợ các mô hình LLM lai Transformer/Mamba? LM Studio đã có các file GGUF cho Granite 4.0 của IBM. Người dùng muốn chuyển đổi Phi-4-mini-flash-reasoning (MSFT) và Nemotron-Nano-9B-v2 (Nvidia) sang GGUF để chạy cục bộ. Thảo luận về khả năng kỹ thuật và chi phí suy luận.

#GGUF #LLM #AI #Mamba #Transformer #Granite4 #Phi4 #NemotronNano #MáyHọc #TríTuệNhânTạo #MôHìnhNgônNgữ

https://www.reddit.com/r/LocalLLaMA/comments/1nzpjz8/how_did_lm_studio_convert_ibms_granite_40_mod