Xenova (@xenovacom)
NVIDIA의 새로운 Nemotron-3-Nano(4B) 모델이 소개되었습니다. Hybrid Mamba+Attention 구조를 사용해 추론과 비추론 작업을 하나의 모델로 통합했으며, 매우 작고 효율적이라 웹 브라우저에서 100% 로컬로 초당 75토큰 속도로 실행된다고 합니다.

Xenova (@xenovacom) on X
Not enough people are talking about NVIDIA's new Nemotron-3-Nano (4B) model! 🤯 Hybrid Mamba + Attention architecture, designed as a unified model for reasoning and non-reasoning tasks. So small and efficient, it can run 100% locally in your web browser at 75 tokens per second.