Откуда в обучении берётся nan: численная нестабильность в ML и почему всё считают в логарифмах

Многие ML‑инженеры знают, что нужно использовать CrossEntropyLoss , log_softmax и logsumexp . Гораздо меньше людей могут объяснить, что именно они спасают и почему без них обучение модели периодически превращается в генератор nan . Именно об этом и поговорим.

https://habr.com/ru/companies/otus/articles/1044824/

#численная_стабильность #машинное_обучение #нейронные_сети #softmax #logsumexp #float32 #градиенты #переполнение #underflow #PyTorch

Откуда в обучении берётся nan: численная нестабильность в ML и почему всё считают в логарифмах

Модель обучается, loss падает, метрики растут. На какой‑то эпохе loss внезапно становится nan и больше не восстанавливается, как бы вы ни понижали learning rate. Или инференс...

Хабр