Откуда в обучении берётся nan: численная нестабильность в ML и почему всё считают в логарифмах
Многие ML‑инженеры знают, что нужно использовать CrossEntropyLoss , log_softmax и logsumexp . Гораздо меньше людей могут объяснить, что именно они спасают и почему без них обучение модели периодически превращается в генератор nan . Именно об этом и поговорим.
https://habr.com/ru/companies/otus/articles/1044824/
#численная_стабильность #машинное_обучение #нейронные_сети #softmax #logsumexp #float32 #градиенты #переполнение #underflow #PyTorch


