Mastodawn

Cool guide for getting #RDMA working for AMD #StrixHalo in #Linux. Reminds me of a startup I was in ~15 years ago where we used #Infiniband for #GlusterFS. Looks like it still needs some work to remain stable. The troubleshooting section has a deadlock warning (and fix) right off the bat.
https://github.com/kyuz0/amd-strix-halo-vllm-toolboxes/blob/main/rdma_cluster/setup_guide.md

amd-strix-halo-vllm-toolboxes/rdma_cluster/setup_guide.md at main · kyuz0/amd-strix-halo-vllm-toolboxes

Contribute to kyuz0/amd-strix-halo-vllm-toolboxes development by creating an account on GitHub.

GitHub

GripNews 6h ago

🌗 AMD Strix Halo RDMA 叢集建置指南：利用 Intel E810 實現分佈式 vLLM 推論
➤ 透過低延遲網路技術，極致發揮 AI 硬體效能
✤ https://github.com/kyuz0/amd-strix-halo-vllm-toolboxes/blob/main/rdma_cluster/setup_guide.md
本文詳述如何將兩臺配備 AMD Strix Halo 的設備，透過 Intel E810 網卡以 RoCE v2 協定串聯，建構成支援分佈式 vLLM 推論的運算叢集。透過 RDMA 技術繞過 CPU 與作業系統核心，大幅降低節點間的傳輸延遲，使兩臺獨立機器在執行 Tensor Parallelism（張量並行）模型時，能如同一臺設備般協同工作。作者提供了從 Fedora 作業系統設定、網卡韌體更新、核心參數最佳化到容器化環境部署的全方位教學，協助開發者突破單機記憶體限制。
+ 終於看到 Strix Halo 的實戰應用了！用 RDMA 繞過
#高效能運算 (HPC) #vLLM #RDMA #AMD Strix Halo #網路工程

amd-strix-halo-vllm-toolboxes/rdma_cluster/setup_guide.md at main · kyuz0/amd-strix-halo-vllm-toolboxes

Contribute to kyuz0/amd-strix-halo-vllm-toolboxes development by creating an account on GitHub.

GitHub

Hacker News 8h ago

AMD Strix Halo RDMA Cluster Setup Guide

https://github.com/kyuz0/amd-strix-halo-vllm-toolboxes/blob/main/rdma_cluster/setup_guide.md

#HackerNews #Tech #RDMA

amd-strix-halo-vllm-toolboxes/rdma_cluster/setup_guide.md at main · kyuz0/amd-strix-halo-vllm-toolboxes

Contribute to kyuz0/amd-strix-halo-vllm-toolboxes development by creating an account on GitHub.

GitHub

Hacker News 7h ago

AMD Strix Halo RDMA Cluster Setup Guide

https://github.com/kyuz0/amd-strix-halo-vllm-toolboxes/blob/main/rdma_cluster/setup_guide.md

#HackerNews #AMD #Strix #Halo #RDMA #Cluster #Setup #Guide #RDMA #Cluster #AMD #Strix #Halo #Tech #Guide #High #Performance #Computing #Cluster #Setup

amd-strix-halo-vllm-toolboxes/rdma_cluster/setup_guide.md at main · kyuz0/amd-strix-halo-vllm-toolboxes

Contribute to kyuz0/amd-strix-halo-vllm-toolboxes development by creating an account on GitHub.

GitHub

Habr Jun 18

Transfer 2.0, или Как я перестал бояться и полюбил миграции облачных серверов

Привет, Хабр! Меня зовут Денис, я тимлид инфраструктурной Core команды в Timeweb Cloud. Итак... представьте обычную виртуальную машину клиента. Она принимает запросы, пишет в базу, держит файловый кэш, обновляет память, что-то постоянно меняет на диске. А теперь нам нужно перевезти её с одной физической ноды на другую так, чтобы клиент не заметил переезд. Звучит просто, пока не вспоминаешь, что у виртуальной машины есть память, диски, снапшоты, сетевые настройки, разные формат хранилищ, отличающиеся модели и вендоры CPU и состояния в базе управления. Любая из этих деталей может превратить задачу типа «перенести сервер» в ручную операцию с окном обслуживания, тикетом в поддержку и нервным инженером у консоли. Мы переписали модуль миграции VDS так, чтобы эти детали стали частью алгоритма, а не частью ночной операционной инструкции. В этой статье расскажу, как мы устроили живые миграции на базе libvirt, зачем оставили rsync , почему перешли на NBD для активных дисков, как выбираем RDMA или TCP, что дают SYNC_WRITES , ZEROCOPY , DETECT_ZEROES , AUTO_CONVERGE и другие флаги, и почему всё это важно не только инженерам, но и бизнесу. Кодовые фрагменты взяты из реального модуля управляющего трансферами. Они немного сокращены и упрощены для статьи, но отражают настоящую логику. В целом материал будет полезен как сетевым инженерам, так и пользователям, для понимания всех внутренних процессов — что и как устроено и почему работает так, как работает.

https://habr.com/ru/companies/timeweb/articles/1045384/

#kvm #timeweb_статьи #nbd #qemu #libvirt #live_migration #rdma #itинфраструктура #облачные_сервисы

Transfer 2.0, или Как я перестал бояться и полюбил миграции облачных серверов

Хабр

Habr Jun 5

OpenPGM: зачем Бирже мультикаст?

Существует два фундаментальных подхода к доставке данных: уникаст - передача "точка-точка", и мультикаст - передача "один-ко-многим". Подавляющее большинство данных в локальных и глобальных сетях ходит по TCP, уникасту. У большинства программистов сложилась четкая ассоциация: если нужно устроить сетевое взаимодействие, то используем TCP. Но в финансовой сфере на этот счёт мы привыкли думать по-другому. Если требуется построить систему с минимальным временем отклика, но при этом с высокой пропускной способностью и надежной доставкой, то мультикаст годится лучше.

https://habr.com/ru/companies/moex/articles/1044130/

#openpgm #rdma #pgm #multicast #мультикаст #биржа #фондовая_биржа

OpenPGM: зачем Бирже мультикаст?

Всем привет! Меня зовут Николай Висков, я лидер направления разработки протокола доступа Биржи, работаю в блоке развития торгово-клиринговых систем, занимаюсь разработкой высоконагруженных систем....

Хабр

gary May 16

https://www.youtube.com/watch?v=32cjdHVoSRo&t=1s

builds a fully open source stack with fedora after some difficulty #cluster #rocm #rdma #rhel gateway #operator error #userland

Three months wrong about why my 4-node AMD cluster was slow

YouTube

ServeTheHome May 6

NVIDIA is talking about is Spectrum-X MRC, a custom RDMA transport protocol already powering frontier gigascale AI deployments#NVIDIA #RDMA #RoCEv2 #Spectrum-X
NVIDIA Spectrum-X Ethernet MRC is the Custom RDMA Transport Protocol for Gigascale AI

NVIDIA Spectrum-X Ethernet MRC is the Custom RDMA Transport Protocol for Gigascale AI

NVIDIA is talking about is Spectrum-X MRC, a custom RDMA transport protocol already powering frontier gigascale AI deployments

ServeTheHome

ServeTheHome May 6

NVIDIA is talking about is Spectrum-X MRC, a custom RDMA transport protocol already powering frontier gigascale AI deployments#NVIDIA #RDMA #RoCEv2 #Spectrum-X
NVIDIA Spectrum-X MRC is the Custom RDMA Transport Protocol for Gigascale AI

NVIDIA Spectrum-X MRC is the Custom RDMA Transport Protocol for Gigascale AI

NVIDIA is talking about is Spectrum-X MRC, a custom RDMA transport protocol already powering frontier gigascale AI deployments

ServeTheHome

新聞頻道 Mar 28

UNWIRE.HK (@unwire_hk)

Mac Pro 正式停產　Apple 確認不再推出新一代型號
https://unwire.hk/2026/03/28/apple-officially-discontinues-mac-pro-replaced-by-mac-studio/notebook/?utm_source=rss&utm_medium=rss&utm_campaign=apple-officially-discontinues-mac-pro-replaced-by-mac-studio
#流動電腦 #Apple #M3_Ultra #M4_Max #mac_pro #Mac_Studio #PCIe #RDMA #Thunderbolt_5 #停產

Mac Pro 正式停產　Apple 確認不再推出新一代型號 - unwire.hk 香港

Apple 正式停產 Mac Pro 並將其從官方網站全面下架，所有舊連結現時均跳轉至 Mac 產品總覽頁面，外媒更獲 Apple 直接確認未來不會再推出任何新款 Mac Pro 硬件，終結這個歷史逾 20 年的專業桌上電腦產品線。

香港 unwire.hk 玩生活．樂科技

amd-strix-halo-vllm-toolboxes/rdma_cluster/setup_guide.md at main · kyuz0/amd-strix-halo-vllm-toolboxes

amd-strix-halo-vllm-toolboxes/rdma_cluster/setup_guide.md at main · kyuz0/amd-strix-halo-vllm-toolboxes

amd-strix-halo-vllm-toolboxes/rdma_cluster/setup_guide.md at main · kyuz0/amd-strix-halo-vllm-toolboxes

amd-strix-halo-vllm-toolboxes/rdma_cluster/setup_guide.md at main · kyuz0/amd-strix-halo-vllm-toolboxes

Transfer 2.0, или Как я перестал бояться и полюбил миграции облачных серверов

OpenPGM: зачем Бирже мультикаст?

Three months wrong about why my 4-node AMD cluster was slow

NVIDIA Spectrum-X Ethernet MRC is the Custom RDMA Transport Protocol for Gigascale AI

NVIDIA Spectrum-X MRC is the Custom RDMA Transport Protocol for Gigascale AI

Mac Pro 正式停產 Apple 確認不再推出新一代型號 - unwire.hk 香港

Mac Pro 正式停產　Apple 確認不再推出新一代型號 - unwire.hk 香港