Alex Cheema (@alexocheema)
RDMA 불필요 주장: prefill/Decode 분해(분산·디스어그리게이션)는 대기시간(latency)에 민감하지 않아 고가의 RDMA 대신 10GbE로 충분하다는 기술적 분석과 결과를 공유했다는 내용. 네트워크 아키텍처 선택과 비용·성능 트레이드오프에 대한 인프라 논의임.
Alex Cheema (@alexocheema)
RDMA 불필요 주장: prefill/Decode 분해(분산·디스어그리게이션)는 대기시간(latency)에 민감하지 않아 고가의 RDMA 대신 10GbE로 충분하다는 기술적 분석과 결과를 공유했다는 내용. 네트워크 아키텍처 선택과 비용·성능 트레이드오프에 대한 인프라 논의임.
Anyscale công bố: >50% cụm AI chỉ sử dụng <50% GPU do tải công việc gián đoạn. Giải pháp Ray: tách CPU và GPU (disaggregation) để tối ưu tài nguyên. Tuy nhiên, một số cho rằng đây là quá kỹ thuật; nếu mô hình 70B tải <2 s (ephemeral) thì GPU có thể tắt hoàn toàn, giảm chi phí. Bạn ưu tiên tối đa hoá sử dụng hay tải nhanh? #AI #GPU #Disaggregation #Ray #Ephemeral #TríTuệNhânTạo
https://www.reddit.com/r/LocalLLaMA/comments/1qjbufk/anyscales_new_data_most_ai_clusters_run_at_50/
AI models keep getting faster, but your infrastructure isn’t keeping up.
As LLMs power everything from customer support to enterprise search, monolithic server setups are turning into major bottlenecks.
Could #Disaggregation be the answer?
📰 Dive into the #InfoQ article to learn more: https://bit.ly/48987Em
ICYMI: Wenn ihr wissen wollt, was FrauStief_in_IT diese Woche so alles auf der #ISC23 in Hamburg gesehen hat, hört doch mal in unseren data://express #Podcast rein.
In der aktuellen Episode geht es um #quantencomputer #liquidcooling und #disaggregation
https://data-express.letscast.fm/episode/dxprs0039-it-on-steroids-auf-der-isc-hpc
FrauStief_in_IT hat die ISC HPC in Hamburg besucht und leuchtende Augen bekommen ob all der Quanten, Quantenrechner, Flüssigkühlern und Network Accelerators.
FrauStief_in_IT hat die ISC HPC in Hamburg besucht und leuchtende Augen bekommen ob all der Quanten, Quantenrechner, Flüssigkühlern und Network Accelerators.