Cool guide for getting #RDMA working for AMD #StrixHalo in #Linux. Reminds me of a startup I was in ~15 years ago where we used #Infiniband for #GlusterFS. Looks like it still needs some work to remain stable. The troubleshooting section has a deadlock warning (and fix) right off the bat.
https://github.com/kyuz0/amd-strix-halo-vllm-toolboxes/blob/main/rdma_cluster/setup_guide.md
amd-strix-halo-vllm-toolboxes/rdma_cluster/setup_guide.md at main · kyuz0/amd-strix-halo-vllm-toolboxes

Contribute to kyuz0/amd-strix-halo-vllm-toolboxes development by creating an account on GitHub.

GitHub
🌗 AMD Strix Halo RDMA 叢集建置指南:利用 Intel E810 實現分佈式 vLLM 推論
➤ 透過低延遲網路技術,極致發揮 AI 硬體效能
https://github.com/kyuz0/amd-strix-halo-vllm-toolboxes/blob/main/rdma_cluster/setup_guide.md
本文詳述如何將兩臺配備 AMD Strix Halo 的設備,透過 Intel E810 網卡以 RoCE v2 協定串聯,建構成支援分佈式 vLLM 推論的運算叢集。透過 RDMA 技術繞過 CPU 與作業系統核心,大幅降低節點間的傳輸延遲,使兩臺獨立機器在執行 Tensor Parallelism(張量並行)模型時,能如同一臺設備般協同工作。作者提供了從 Fedora 作業系統設定、網卡韌體更新、核心參數最佳化到容器化環境部署的全方位教學,協助開發者突破單機記憶體限制。
+ 終於看到 Strix Halo 的實戰應用了!用 RDMA 繞過
#高效能運算 (HPC) #vLLM #RDMA #AMD Strix Halo #網路工程
amd-strix-halo-vllm-toolboxes/rdma_cluster/setup_guide.md at main · kyuz0/amd-strix-halo-vllm-toolboxes

Contribute to kyuz0/amd-strix-halo-vllm-toolboxes development by creating an account on GitHub.

GitHub
amd-strix-halo-vllm-toolboxes/rdma_cluster/setup_guide.md at main · kyuz0/amd-strix-halo-vllm-toolboxes

Contribute to kyuz0/amd-strix-halo-vllm-toolboxes development by creating an account on GitHub.

GitHub
amd-strix-halo-vllm-toolboxes/rdma_cluster/setup_guide.md at main · kyuz0/amd-strix-halo-vllm-toolboxes

Contribute to kyuz0/amd-strix-halo-vllm-toolboxes development by creating an account on GitHub.

GitHub

Transfer 2.0, или Как я перестал бояться и полюбил миграции облачных серверов

Привет, Хабр! Меня зовут Денис, я тимлид инфраструктурной Core команды в Timeweb Cloud. Итак... представьте обычную виртуальную машину клиента. Она принимает запросы, пишет в базу, держит файловый кэш, обновляет память, что-то постоянно меняет на диске. А теперь нам нужно перевезти её с одной физической ноды на другую так, чтобы клиент не заметил переезд. Звучит просто, пока не вспоминаешь, что у виртуальной машины есть память, диски, снапшоты, сетевые настройки, разные формат хранилищ, отличающиеся модели и вендоры CPU и состояния в базе управления. Любая из этих деталей может превратить задачу типа «перенести сервер» в ручную операцию с окном обслуживания, тикетом в поддержку и нервным инженером у консоли. Мы переписали модуль миграции VDS так, чтобы эти детали стали частью алгоритма, а не частью ночной операционной инструкции. В этой статье расскажу, как мы устроили живые миграции на базе libvirt, зачем оставили rsync , почему перешли на NBD для активных дисков, как выбираем RDMA или TCP, что дают SYNC_WRITES , ZEROCOPY , DETECT_ZEROES , AUTO_CONVERGE и другие флаги, и почему всё это важно не только инженерам, но и бизнесу. Кодовые фрагменты взяты из реального модуля управляющего трансферами. Они немного сокращены и упрощены для статьи, но отражают настоящую логику. В целом материал будет полезен как сетевым инженерам, так и пользователям, для понимания всех внутренних процессов — что и как устроено и почему работает так, как работает.

https://habr.com/ru/companies/timeweb/articles/1045384/

#kvm #timeweb_статьи #nbd #qemu #libvirt #live_migration #rdma #itинфраструктура #облачные_сервисы

Transfer 2.0, или Как я перестал бояться и полюбил миграции облачных серверов

Привет, Хабр! Меня зовут Денис, я тимлид инфраструктурной Core команды в Timeweb Cloud. Итак... представьте обычную виртуальную машину клиента. Она принимает запросы, пишет в базу, держит файловый...

Хабр

OpenPGM: зачем Бирже мультикаст?

Существует два фундаментальных подхода к доставке данных: уникаст - передача "точка-точка", и мультикаст - передача "один-ко-многим". Подавляющее большинство данных в локальных и глобальных сетях ходит по TCP, уникасту. У большинства программистов сложилась четкая ассоциация: если нужно устроить сетевое взаимодействие, то используем TCP. Но в финансовой сфере на этот счёт мы привыкли думать по-другому. Если требуется построить систему с минимальным временем отклика, но при этом с высокой пропускной способностью и надежной доставкой, то мультикаст годится лучше.

https://habr.com/ru/companies/moex/articles/1044130/

#openpgm #rdma #pgm #multicast #мультикаст #биржа #фондовая_биржа

OpenPGM: зачем Бирже мультикаст?

Всем привет! Меня зовут Николай Висков, я лидер направления разработки протокола доступа Биржи, работаю в блоке развития торгово-клиринговых систем, занимаюсь разработкой высоконагруженных систем....

Хабр

https://www.youtube.com/watch?v=32cjdHVoSRo&t=1s

builds a fully open source stack with fedora after some difficulty #cluster #rocm #rdma #rhel gateway #operator error #userland

Three months wrong about why my 4-node AMD cluster was slow

YouTube
NVIDIA is talking about is Spectrum-X MRC, a custom RDMA transport protocol already powering frontier gigascale AI deployments#NVIDIA #RDMA #RoCEv2 #Spectrum-X
NVIDIA Spectrum-X Ethernet MRC is the Custom RDMA Transport Protocol for Gigascale AI
NVIDIA Spectrum-X Ethernet MRC is the Custom RDMA Transport Protocol for Gigascale AI

NVIDIA is talking about is Spectrum-X MRC, a custom RDMA transport protocol already powering frontier gigascale AI deployments

ServeTheHome
NVIDIA is talking about is Spectrum-X MRC, a custom RDMA transport protocol already powering frontier gigascale AI deployments#NVIDIA #RDMA #RoCEv2 #Spectrum-X
NVIDIA Spectrum-X MRC is the Custom RDMA Transport Protocol for Gigascale AI
NVIDIA Spectrum-X MRC is the Custom RDMA Transport Protocol for Gigascale AI

NVIDIA is talking about is Spectrum-X MRC, a custom RDMA transport protocol already powering frontier gigascale AI deployments

ServeTheHome
Mac Pro 正式停產 Apple 確認不再推出新一代型號 - unwire.hk 香港

Apple 正式停產 Mac Pro 並將其從官方網站全面下架,所有舊連結現時均跳轉至 Mac 產品總覽頁面,外媒更獲 Apple 直接確認未來不會再推出任何新款 Mac Pro 硬件,終結這個歷史逾 20 年的專業桌上電腦產品線。

香港 unwire.hk 玩生活.樂科技