🌘 容錯的 Llama:在 Crusoe L40S 上以每 15 秒 2000 次的合成故障進行訓練,無需檢查點
➤ 極端環境下的模型訓練:torchft 的可靠性驗證
https://pytorch.org/blog/fault-tolerant-llama-training-with-2000-synthetic-failures-every-15-seconds-and-no-checkpoints-on-crusoe-l40s/
這篇文章介紹瞭如何使用 torchft 和 torchtitan 在真實環境中訓練大型語言模型 (LLM),並在極高故障率(每 15 秒約 2000 次合成故障)下驗證其可靠性和正確性。研究人員在 Crusoe 的 300 個 L40S GPU 集羣上,成功地在沒有檢查點的情況下訓練了一個 1B 參數的 Llama 3 模型,展示了 torchft 的優勢,特別是在非傳統環境和有限網路頻寬的狀況下。
+ 這太酷了!以前從沒想過能在這麼多故障的情況下訓練大型模型。這對於需要高度可靠性
#人工智慧 #機器學習 #分散式訓練 #容錯 #PyTorch
Fault Tolerant Llama: training with 2000 synthetic failures every ~15 seconds and no checkpoints on Crusoe L40S – PyTorch

🌘 INTELLECT-2 發布:首個全球訓練的 32B 參數模型強化學習訓練運行
➤ 分散式強化學習的新範式
https://www.primeintellect.ai/blog/intellect-2-release
Prime Intellect 團隊發布了 INTELLECT-2,這是首個通過全球分散式強化學習訓練的 32B 參數模型。與傳統的集中式訓練方法不同,INTELLECT-2 利用一個動態且異質的、無需許可的計算資源羣來訓練推理語言模型。為了實現這一訓練,團隊開發了 PRIME-RL 訓練框架以及 TOPLOC 和 SHARDCAST 等新組件,並對標準的 GRPO 訓練方法和數據過濾技術進行了修改。INTELLECT-2 及其代碼和數據已開源,旨在促進分散式訓練領域的更多開放研究。
+ 這項技術的突破對於降低大型語言模型的訓練成本和促進人工智能的民主化意義重大。
+ 開源的 INTELLECT-2 提供了寶貴的資源,讓研究人員可以探索分散式訓練的潛力,並加速人工智能技術的發展。
#人工智慧 #強化學習 #分散式訓練 #開源
INTELLECT-2 Release: The First 32B Parameter Model Trained Through Globally Distributed Reinforcement Learning

We're excited to release INTELLECT-2, the first 32B parameter model trained via globally distributed reinforcement learning. Unlike traditional centralized training efforts, INTELLECT-2 trains a reasoning language model using fully asynchronous RL across a dynamic, heterogeneous swarm of permissionless compute contributors.

🌗 推出首次10億參數模型的第一次分散式訓練
➤ Prime Intellect的首次分散式訓練創舉在全球AI技術領域引起矚目,開創更高效的10億參數模型訓練方式。
https://www.primeintellect.ai/blog/intellect-1
推出首次10億參數模型的分散式訓練,邀請任何人貢獻運算並參與,邁向開源通用人工智慧。原文介紹了OpenDiLoCo的開源實現和深度學習分佈低通信方法的擴展,以全球分佈式AI模型訓練為目標,力求確保人工智慧通用將是開源、透明和開放的,防止被少數中央實體控制,加速人類進步。
+ 精彩的科技突破,將為未來的人工智慧發展帶來新的思維,期待看到更多創新成果。
+ 分散式訓練模式對於推動開源AI技術發展具有重要影響,這種開放合作的方式或將帶來更多跨界合作的機會。
#人工智慧 #分散式訓練 #技術創新
INTELLECT–1: Launching the First Decentralized Training of a 10B Parameter Model

We're excited to launch INTELLECT-1, the first decentralized training run of a 10-billion-parameter model, inviting anyone to contribute compute and participate. This brings us one step closer towards open source AGI.