Alex Cheema (@alexocheema)

새로운 M5 Pro/Max MacBook이 Thunderbolt 5 포트 3개를 제공해 최대 4대의 MacBook으로 RDMA 클러스터를 구성할 수 있다는 업데이트입니다. Thunderbolt 기반 RDMA 지연이 마이크로초 단위로 매우 낮아 tensor parallelism에 적합하며, Mac 하드웨어로 소형 분산 AI 클러스터를 만드는 가능성을 보여줍니다.

https://x.com/alexocheema/status/2035873888903512187

#m5 #macbook #thunderbolt5 #rdma #tensorparallelism

Alex Cheema (@alexocheema)

MacBook 여러 대를 RDMA로 데이지 체인 연결해 최대 4대까지 1T 파라미터 모델을 선형 확장으로 실행할 수 있다는 내용입니다. 새로운 ‘LAN party’가 아닌 ‘RDMA party’라는 표현으로, 대형 모델 추론/병렬화에 MacBook과 RDMA를 활용하는 흥미로운 AI 인프라 사용 사례를 소개합니다.

https://x.com/alexocheema/status/2035901590314406206

#rdma #macbook #llm #tensorparallelism #inference

Guybrush Threepwood (@twistedmatrices)

RDMA를 지원하는 여러 MacBook을 @exolabs로 클러스터링해 Thunderbolt 5로 30B급 이상 모델을 초당 70토큰 속도로 실행할 수 있다고 소개한다. 소비자용 하드웨어에서도 tensor parallelism이 사실상 해결됐다는 주장으로, GPU 대여보다 노트북 클러스터가 더 효율적일 수 있음을 강조한다.

https://x.com/twistedmatrices/status/2035848802377375980

#rdma #tensorparallelism #macbook #thunderbolt5 #llm

Guybrush Threepwood (@twistedmatrices) on X

PSA: If you have multiple macbooks that support RDMA, you can cluster them using @exolabs and run 30B+ models at 70 tok/s over thunderbolt5. tensor parallelism on consumer hardware is a solved problem. you are renting GPUs that are worse than the laptop on your couch. 2X M4

X (formerly Twitter)

Alex Cheema (@alexocheema)

AMD Ryzen AI Max+ 시스템 클러스터에서 텐서 병렬화(tensor parallelism)를 성공적으로 운용한 사례를 묻는 질문형 트윗. 작성자는 소프트웨어 지원이 부족하다는 이야기를 들었다며, 왜 그런지와 실제 동작 사례를 궁금해하고 있음.

https://x.com/alexocheema/status/2031007365361770828

#tensorparallelism #amd #ryzenaimax #distributedtraining

Alex Cheema (@alexocheema) on X

Has anyone got tensor parallelism working with clusters of AMD Ryzen AI Max+ systems? I heard the software support is lacking but curious why that is?

X (formerly Twitter)

🤔 Bạn có biết có thể dùng Tensor Parallelism (TP) với 3 GPU cho mô hình GLM‑4.7 không? Một thành viên Reddit hỏi liệu có cách nào hiệu quả để tận dụng GPU lẻ (3,5) cho inference mà không phải dùng số chẵn. Hiện chưa có hỗ trợ chính thức, thường cần chia đều VRAM hoặc dùng kỹ thuật sharding. #AI #LLM #TensorParallelism #GPU #CôngNghệ #Vietnam

https://www.reddit.com/r/LocalLLaMA/comments/1qtgc6g/is_tp3_a_thing_for_glm/

Awni Hannun (@awnihannun)

MLX Distributed에서 텐서 병렬성(tensor parallelism)이 어떻게 동작하는지 저수준 연산부터 텐서 병렬 Llama 추론(full tensor-parallel Llama inference)까지 설명한 블로그 포스트를 소개하는 글입니다. 분산·병렬화 설계와 추론 최적화 관점에서 유용한 기술자료입니다.

https://x.com/awnihannun/status/2016595555569586442

#tensorparallelism #mlxdistributed #llama #modelparallel

Awni Hannun (@awnihannun) on X

This is a nice blog post on how tensor parallelism works with MLX distributed. From the low level ops all the way up to full tensor-parallel Llama inference:

X (formerly Twitter)

Ivan Fioravanti ᯅ (@ivanfioravanti)

MiniMax 2.1을 8bit로 압축해 단일 M3 Ultra(512GB)에서 오픈코드로 실시간 동작시켰다는 보고. 실시간 비디오 재생(무가속)과 함께 텐서 병렬성(TP)에 대한 심층 탐구 계획을 밝힘—경량화·실행성 관련 기술 데모.

https://x.com/ivanfioravanti/status/2007385375040545087

#minimax #m3ultra #tensorparallelism #opensource

Ivan Fioravanti ᯅ (@ivanfioravanti) on X

MLX - MiniMax 2.1 8bit (minimum loss!) with opencode on a single M3 Ultra 512GB. Video is in realtime no speedup! Fast and furious 🔥 Now time to deep dive on Tensor Parallelism. Fasten your seatbelt that we are gonna fly!

X (formerly Twitter)