Blackwell Ultra promises a major AI speed boost, while Nvidia’s Vera Rubin platform aims to slash token costs for LLM inference with Mixture‑of‑Experts. Both moves could reshape large‑model deployment. Curious how this will affect your workloads? Read the full breakdown. #BlackwellUltra #VeraRubin #MixtureOfExperts #TokenCost

🔗 https://aidailypost.com/news/blackwell-ultra-speeds-up-ai-nvidia-rubin-platform-slated-monthsaway

Nvidia just unveiled Nemotron 3, its new Mamba-Transformer LLM built for massive token throughput and Mixture-of-Experts scaling. Early adopters like Accenture, Oracle Cloud Infrastructure and Zoom are already testing agentic-AI capabilities. Curious how this could reshape open-source AI? Read on! #Nvidia #Nemotron3 #MambaTransformer #MixtureOfExperts

🔗 https://aidailypost.com/news/nvidia-launches-nemotron-3-early-adopters-include-accenture-oracle

Nvidia unveils an AI server running mixture-of-experts models up to 1,000x faster with 72 high-speed GPUs. As AI shifts to real-time, large-scale deployment, competitors like AMD and Chinese AI firms challenge its lead. Nvidia aims to stay ahead in hardware, scalability, and operational efficiency.

#Nvidia #AIHardware #MixtureOfExperts #GPUs #HighPerformanceComputing

Read Full Article:- https://www.techi.com/nvidia-boost-moonshot-ai-deepseek-performance/

Nvidia vừa ra mắt máy chủ thế hệ mới, tăng hiệu suất mô hình AI của Trung Quốc lên tới 10× nhờ công nghệ Mixture‑of‑Experts và 72 chip tiên tiến. 🚀💡 #Nvidia #AI #CôngNghệ #TrungQuốc #MachineLearning #MixtureOfExperts #Server #TechNews #CôngNghệAI

https://vtcnews.vn/cong-nghe-4-12-nvidia-nang-cap-mo-hinh-ai-trung-quoc-len-10-lan-voi-may-chu-moi-ar990943.html

Công nghệ 4/12: Nvidia nâng cấp mô hình AI Trung Quốc lên 10 lần với máy chủ mới

Nvidia tăng hiệu suất mô hình AI Trung Quốc tới 10 lần nhờ máy chủ thế hệ mới với công nghệ mixture-of-experts và hệ thống 72 chip tiên tiến.

Báo điện tử VTC News

Discover how NVIDIA's Blackwell NVL72 powers top AI models like Kimi K2 Thinking 10x faster #MixtureOfExperts #NVIDIA #AI

The top 10 most intelligent open-source models, including Kimi K2 Thinking and DeepSeek-R1, utilize a mixture-of-experts (MoE) architecture, which mimics the human brain's efficiency. These models achieve a 10x speed increase when run on NVIDIA's GB200 NVL72, specifically the Blackwell NVL72. The MoE architecture is a key...

#MixtureOfExperts #NVIDIA #GB200 #NVL72

Mixture-of-Experts Architecture Revolutionizes AI

The mixture-of-experts architecture is transforming the AI landscape with its efficient and scalable design.

TechLife

New benchmarks show Mixture‑of‑Experts models on NVIDIA’s Blackwell NVL72 run up to 10× faster than on Hopper GPUs. The GB200 architecture and DeepSeek‑V3 optimizations push open‑source AI research forward. Dive into the details and see how this leap could reshape training pipelines. #MixtureOfExperts #NVIDIA #Blackwell #DeepSeekV3

🔗 https://aidailypost.com/news/mixtureofexperts-ai-models-run-10-faster-nvidia-blackwell-nvl72

Kimi K2: Open-Source Mixture-of-Experts AI Model Released

https://techlife.blog/posts/kimi-k2-open-source-moe-ai/

#LLM #OpenSource #MixtureofExperts #Kimi

Kimi K2: Open-Source Mixture-of-Experts AI Model Released

Kimi K2, a large language model with 32 billion activated parameters, has been released as an open-source Mixture-of-Experts AI model.

TechLife

Dlaczego Siri z Gemini to niekoniecznie dobra wiadomość dla Polaków? Oto jak to ma działać

Ostatnie doniesienia Bloomberga o tym, że Apple jest o krok od podpisania umowy z Google na zasilenie Siri modelem Gemini, wywołały nad Wisłą falę entuzjazmu. W serca polskich użytkowników Apple wstąpiła nadzieja: „Skoro Gemini tak świetnie mówi po polsku, to jest niemal pewne, że w końcu dostaniemy Siri w naszym języku!”.

Jestem tu, by wylać na te rozgrzane głowy kubeł bardzo zimnej wody. Uważam, że ten sojusz to, paradoksalnie, niemal gwarancja, że na polską Siri poczekamy jeszcze dłużej. Oto dlaczego.

Piekło niespójnego doświadczenia

Moja argumentacja jest prosta i opiera się na jednej rzeczy, którą Apple ceni bardziej niż innowacyjność, pieniądze i (teraz już widać) prywatność: obsesyjną dbałość o spójne doświadczenie użytkownika (UX).

Musimy zrozumieć, że nowa Siri nie będzie po prostu „nakładką” Gemini na iOS czy iPadOS. Nie będzie to również Gemini wbudowany w najgłębsze rdzenie ekosystemu Apple’a, na to gigant z Cupertino nigdy nie pójdzie. Nowa Siri z Gemini będzie rozwiązaniem hybrydowym.

Mózg „cloud” (Gemini): zaawansowany model Gemini, spersonalizowany i wytrenowany na potrzeby Apple, uruchamiany na serwerach Apple Private Cloud Compute, będzie odpowiadał za całą „magię” generatywnej AI: konwersacje, odpowiadanie na złożone pytania, rozumienie kontekstu, pisanie e-maili i streszczanie artykułów.

Mózg „core” (Apple): absolutny rdzeń asystenta – czyli głęboka integracja systemowa – pozostanie w 100% w rękach Apple. Ustawianie timerów, włączanie trybu skupienia, otwieranie aplikacji, sterowanie HomeKit, dodawanie przypomnień. Tego Apple nie odda nikomu.

I tu jest pies pogrzebany. Ten „core” od Apple nie mówi i nie rozumie po polsku.

Wyobraźmy sobie teraz ten „idealny” scenariusz, na który liczą Polacy. Apple włącza polski w Gemini, ale „core” pozostaje po angielsku. Doświadczenie użytkownika wyglądałoby tak:

Użytkownik: „Cześć Siri, opowiedz mi o historii dynastii Jagiellonów”.Siri (głosem Gemini, po polsku): „Oczywiście. Dynastia Jagiellonów panowała w Polsce w latach...” (piękna, płynna odpowiedź).Użytkownik: „Dzięki. A teraz ustaw minutnik na 10 minut”.Siri (głosem Apple Core, po angielsku): „Sorry, I didn't get that. Can you please repeat?”

To jest scenariusz rodem z koszmaru projektanta UX w Cupertino. To jest niespójne, toporne i psuje całą iluzję inteligentnego asystenta. Apple nigdy na to nie pozwoli.

Dlatego, moim zdaniem, stanie się coś odwrotnego. To nie Gemini magicznie nauczy „core” polskiego. To Apple „wytnie” nasz język z Gemini, aby zachować spójność doświadczenia na maksymalnym poziomie. Dopóki Apple samo nie opracuje i nie przetrenuje swojego systemowego „core” w naszym języku (nie zrobili tego przez ponad dekadę, nie zanosi się na zmianę w tej materii), dopóty cała reszta asystenta – nawet jeśli jest „wypożyczona” od Google – pozostanie dla nas niedostępna.

Jak oni w ogóle chcą to uruchomić?

Abstrahując od naszych lokalnych problemów, pozostaje pytanie: jak Apple zamierza uruchomić model o skali 1,2 biliona parametrów dla setek milionów użytkowników Siri, nie topiąc przy tym swoich serwerów i nie bankrutując na kosztach inferencji?

Dla porównania, obecny model Apple Intelligence w chmurze ma mieć „zaledwie” 150 miliardów parametrów. Uruchomienie modelu 1,2 biliona dla każdego zapytania byłoby obliczeniowym koszmarem.

Odpowiedzią jest architektura, którą ten model niemal na pewno wykorzystuje: Mixture of Experts (MoE), czyli „Mieszanka Ekspertów”. Zamiast jednego, gigantycznego „mózgu” (modelu), który musi analizować każde zapytanie w całości, architektura MoE działa jak wyspecjalizowany zespół.

Model o wielkości 1,2 biliona parametrów jest podzielony na dziesiątki mniejszych „ekspertów” (podsieci neuronowych). Każdy jest wyspecjalizowany w czymś innym – jeden w gramatyce, inny w matematyce, kolejny w analizie kontekstu, a jeszcze inny w kodowaniu.

Gdy zadajesz pytanie, trafia ono najpierw do „menedżera” (tzw. sieci bramkującej, z ang. gating network). Menedżer błyskawicznie analizuje Twoje zapytanie i aktywuje tylko tę niewielką grupę ekspertów, która jest najlepsza do udzielenia odpowiedzi. Reszta pozostaje uśpiona.

Zdolność giganta, koszt malucha

Tu leży sedno geniuszu tego rozwiązania. Chociaż całkowita „wiedza” modelu jest gigantyczna (1,2 biliona parametrów), do obsłużenia pojedynczego zapytania aktywowana jest tylko niewielka jej część – na przykład kilkadziesiąt miliardów parametrów (wciąż sporo, ale do udźwignięcia dla takiego potentata jak Apple).

W praktyce Apple otrzymuje zdolności ogromnego modelu AI, ale ponosi koszty obliczeniowe zbliżone do uruchomienia znacznie mniejszego modelu. To właśnie ta architektura sprawia, że umowa z Google jest technicznie i finansowo wykonalna.

Pozwala to Apple „wynająć” super-mózg, uruchomić go na własnej infrastrukturze Private Cloud i kupić sobie czas na rozwój własnych modeli. Niestety, ta techniczna elegancja w żaden sposób nie rozwiązuje naszego polskiego problemu. Rdzeń pozostaje w Cupertino. I nadal milczy.

#AI #Apple #AppleIntelligence #felieton #Gemini #Google #iOS26 #MixtureOfExperts #MoE #Siri #siriPoPolsku #sztucznaInteligencja

🔥 Alibaba Qwen3-Next: 10x effizienter, 90% weeniger Trainingskosten!

▶️ Entdecke Hybrid-MoE nun
▶️ Aktiviere 262K Kontext!
▶️ Starte SGLang Turbo nun

#ai #ki #artificialintelligence #qwen3next #alibaba #largelanguagemodels #mixtureofexperts #linearattention

🔥 Jetzt KLICKEN & KOMMENTIEREN! 💭

https://kinews24.de/qwen3-next-alibaba-ki-revolution-2025/