The network war nobody talks about: Ultra Ethernet vs InfiniBand.

UEC 1.0 launched June 2025. Open Ethernet now approaches InfiniBand performance.

Ultra Ethernet wins inference scale-out. InfiniBand holds frontier training (sub-1us latency, proven at 100K+ GPUs).

AI hardware refreshes under 5 years. Facilities that cannot support 3-ton racks or liquid cooling face obsolescence.

https://resistancezero.com/article-18.html

#UltraEthernet #InfiniBand #AINetworking #DataCenter

AI Factories: Why Traditional Data Center Architecture Faces Technical Extinction

Deep analysis: 130kW AI racks, liquid cooling revolution, Ultra Ethernet vs InfiniBand, $700B hyperscaler race, stranded asset risk. Interactive calculator inside.

Bagus Dwi Permana Portfolio

The network war nobody talks about: Ultra Ethernet vs InfiniBand.

UEC 1.0 launched June 2025. Open Ethernet now approaches InfiniBand performance.

Ultra Ethernet wins inference scale-out. InfiniBand holds frontier training (sub-1us latency, proven at 100K+ GPUs).

AI hardware refreshes under 5 years. Facilities that cannot support 3-ton racks or liquid cooling face obsolescence.

https://resistancezero.com/article-18.html

#UltraEthernet #InfiniBand #AINetworking #DataCenter

AI Factories: Why Traditional Data Center Architecture Faces Technical Extinction

Deep analysis: 130kW AI racks, liquid cooling revolution, Ultra Ethernet vs InfiniBand, $700B hyperscaler race, stranded asset risk. Interactive calculator inside.

Bagus Dwi Permana Portfolio

Đang chuẩn bị mua 2× DGX Spark, lo ngại kết nối chỉ 1 cáp 200 Gbps gây băng thông giới hạn so với bộ nhớ thống nhất ~275 Gbps. Thêm cáp thứ hai (dual‑link) có thể thu hẹp khoảng cách. Cáp khuyên dùng: QSFP56 200G (0.5 m) hay QSFP112? Người dùng muốn cổng Ethernet Mellanox để nối thẳng ZFS 7450 Pro. #DGX #AI #InfiniBand #Networking #CôngNghệ #CôngNghệAI

https://www.reddit.com/r/LocalLLaMA/comments/1qquinu/bottlenecked_dgx_spark_by_network/

Нейро сети для самых маленьких. Часть нулевая. Обзорная

Нейро сети для самых маленьких Каждый раз, когда вы говорите нейросети « Спасибо », вы запускаете конвейер, в котором перемножаются сотни матриц с миллиардами элементов, и сжигаете электричества столько же, сколько светодиодная лампа за несколько секунд. Это первая статья из небольшого цикла, посвящённого сетям для AI/ML-кластеров и HPC. В этой серии мы коснёмся принципов работы и обучения моделей, параллелизации, технологий DMA и RDMA, сетевых топологий, InfiniBand и RoCE, а ещё пофилософствуем на тему общих и специальных решений. Конкретно в этой статье мы разберёмся, что представляет из себя нейросеть, как она работает, как происходит её обучение, а самое главное, почему для неё нужны сотни дорогущих GPU-карточек и какая-то особенная сеть. Рефрен сегодняшней истории: в нейросетях нет никакой магии — это просто множество простых операций над числами, которые выполняются на компьютерах со специальными чипами. Магии нет ни в том, как они работают, ни в той инфраструктуре, на которой они запускаются. Ныряем!

https://habr.com/ru/articles/982820/?utm_source=habrahabr&utm_medium=rss&utm_campaign=982820

#ai #ml #roce #infiniband #трансформеры #нейросети #llm #mlp #backpropagation

Нейро сети для самых маленьких. Часть нулевая. Обзорная

Каждый раз, когда вы говорите нейросети « Спасибо », вы запускаете конвейер, в котором перемножаются сотни матриц с миллиардами элементов, и сжигаете электричества столько же, сколько светодиодная...

Хабр

Нейро сети для самых маленьких

Нейро сети для самых маленьких Каждый раз, когда вы говорите нейросети « Спасибо », вы запускаете конвейер, в котором перемножаются сотни матриц с миллиардами элементов, и сжигаете электричества столько же, сколько светодиодная лампа за несколько секунд. Это первая статья из небольшого цикла, посвящённого сетям для AI/ML-кластеров и HPC. В этой серии мы коснёмся принципов работы и обучения моделей, параллелизации, технологий DMA и RDMA, сетевых топологий, InfiniBand и RoCE, а ещё пофилософствуем на тему общих и специальных решений. Конкретно в этой статье мы разберёмся, что представляет из себя нейросеть, как она работает, как происходит её обучение, а самое главное, почему для неё нужны сотни дорогущих GPU-карточек и какая-то особенная сеть. Рефрен сегодняшней истории: в нейросетях нет никакой магии — это просто множество простых операций над числами, которые выполняются на компьютерах со специальными чипами. Магии нет ни в том, как они работают, ни в той инфраструктуре, на которой они запускаются. Ныряем!

https://habr.com/ru/articles/982820/

#ai #ml #roce #infiniband #трансформеры #нейросети #llm #mlp #backpropagation

Нейро сети для самых маленьких. Часть нулевая. Обзорная

Каждый раз, когда вы говорите нейросети « Спасибо », вы запускаете конвейер, в котором перемножаются сотни матриц с миллиардами элементов, и сжигаете электричества столько же, сколько светодиодная...

Хабр

RE: https://mastodon.social/@h4ckernews/115709034881203323

This is technically impressive. I didn't expect to see RDMA support on macOS, let alone running over Thunderbolt. They seem to provide a standard InfiniBand Verbs API but I couldn't find the sources of their driver (rdma_en5) and libraries yet. I guess they won't release the sources.

#RDMA #InfiniBand #macOS

Monitoring high-speed networks… in the terminal 😍

📡 **ibtop** — Real-time TUI monitor for InfiniBand networks.

💯 htop but for ultra-fast interconnects.

🦀 Written in Rust & built with @ratatui_rs

⭐ GitHub: https://github.com/JannikSt/ibtop

#rustlang #ratatui #tui #networking #infiniband #linux #terminal

For today’s personal reminder that ‘Sucking at something is the first step towards being sorta good at something’ I’ve spend a few hours hammering away at the keyboard trying to make two Mellanox Connect-IB cards talk. I can safely say I know more than I did. I even installed Debian 10 just so I could flash one with the stock firmware. Every bit of this feels exotic and complicated. But $30 in and a few hours more and I may have IP over #Infiniband at close to 40gb/s.
#HPC #supercomputing #Infiniband While trouble-shooting a performance issue on our NDR fabric, where nodes would randomly report high latency and less than expected bandwidth (up to 50% less), I discovered a setting within opensm.conf that configured routing to be randomized vs. distributed/round-robin.... Once I changed the setting (scatter_ports) to the _DEFAULT_, I had immediate and consistent performance improvements. See the before and after images... So, FYI, if your users are reporting random latency and bandwidth issues, double-check your opensm.conf routing. Also, I was using NVIDIA/Mellanox's clusterkit tool.
Five years after Intel spun off its #Omni-Path #interconnect tech into Cornelis Networks, its 400Gbps CN5000 line of switches and NICs is finally ready to do battle with its long-time rival, Nvidia's #InfiniBand www.theregister.com/2025/06/09/o... #HPC #AI via @theregister.com

Omni-Path is back to take on I...
Omni-Path is back on the AI and HPC menu in a new challenge to Nvidia's InfiniBand

: After a five-year hiatus, Cornelis' interconnect returns at 400Gbps, with Ethernet support next

The Register