➤ 透過隨機捨入突破低精度計算的效能瓶頸
✤ https://convergentthinking.sh/posts/bias-compounds-variance-washes-out/
在神經網絡訓練中,數值精度往往受限於浮點數格式。作者指出,傳統的「四捨五入」(Round-to-Nearest, RNE)在進行微小數值累加時,會因為固定偏差而導致誤差累積,使得模型訓練停滯;相較之下,「隨機捨入」(Stochastic Rounding, SR)能確保誤差均值為零,利用統計特性讓誤差相互抵銷。透過將優化器狀態存儲在 BF16 格式並結合隨機捨入,模型能在節省顯存的同時,達到與 FP32 高精度存儲相媲美的訓練效果。
+ 這篇分析非常透徹,解釋了為什麼有些 BF16 訓練會無故停滯,隨機捨入簡直是低精度計算的救星。
+ 技術細節很扎實,特別是關於隨機行走(Random Walk)帶來的誤差增長差異對比,非常有說服力。
#機器學習 #數值計算 #優化器 #BF16
