Откуда в обучении берётся nan: численная нестабильность в ML и почему всё считают в логарифмах

Многие ML‑инженеры знают, что нужно использовать CrossEntropyLoss , log_softmax и logsumexp . Гораздо меньше людей могут объяснить, что именно они спасают и почему без них обучение модели периодически превращается в генератор nan . Именно об этом и поговорим.

https://habr.com/ru/companies/otus/articles/1044824/

#численная_стабильность #машинное_обучение #нейронные_сети #softmax #logsumexp #float32 #градиенты #переполнение #underflow #PyTorch

Откуда в обучении берётся nan: численная нестабильность в ML и почему всё считают в логарифмах

Модель обучается, loss падает, метрики растут. На какой‑то эпохе loss внезапно становится nan и больше не восстанавливается, как бы вы ни понижали learning rate. Или инференс...

Хабр

Softmax: Why neural networks need non-linearity? life isn't straight-line simple

https://blog.sparsh.dev/softmax-activation-function/

#HackerNews #softmax #neuralnetworks #nonlinearity #AI #complexity #machinelearning

Softmax Activation Function

Math functions that calculate weighted sum of inputs and adds bias to give non-linearity to output of neuron.

Verbose Tethics

От фич и каскадов к генеративной модели: как мы переосмыслили рекомендации с помощью ARGUS

Классические рекомендательные системы в крупных компаниях — это десятки микросервисов, каскадная фильтрация и тысячи ручных признаков. Такой стек может надёжно работать годами, но неизбежно упирается в фундаментальную проблему: он перестаёт масштабироваться. Качество выходит на плато — всё меньше отдачи от новых фич, усложнения моделей и наращивания данных. Генеративная постановка, когда модель восстанавливает целые последовательности пользовательских действий, обещает принести в рекомендации законы масштабирования, снизить операционную сложность и открыть путь к единой кросс‑сервисной модели. Но между обещанием и продакшеном — огромная дистанция. Нужно понять, какая токенизация работает, как устроить претрейн, что делать с контекстом, негативами и задержками в реальных распределённых системах. Последний год мы адаптировали нашу генеративную модель персонализации ARGUS под разные домены внутри Яндекса, меняли архитектуру, пересобирали обучение и пробовали новые способы интеграции в продакшене. В этой статье я расскажу, какие решения сработали, какие — нет и что нам дала генеративная постановка в реальных рекомендательных системах.

https://habr.com/ru/companies/yandex/articles/1037766/

#рекомендации #machinelearning #ai #ml #рекомендательные_системы #recsys #argus #алгоритмы #softmax

🤔🎓 So apparently, there's this mystical #math sorcery called "Softmax" that nobody can shut up about. It's like a viral #TikTok trend for tech bros, except even they can't agree if deriving the #Jacobian is worth the brain cells. But hey, at least it's more exciting than watching paint dry, right? 🤷‍♂️🙄
https://idlemachines.co.uk/essays/softmax #Softmax #TechBros #ViralTrends #HackerNews #ngated
Softmax, can you really derive the Jacobian? And should you care? — idlemachines

Practice machine learning engineering with hands-on coding challenges. Implement neural network components, backprop, and more — from scratch.

idlemachines
Softmax, can you really derive the Jacobian? And should you care? — idlemachines

Practice machine learning engineering with hands-on coding challenges. Implement neural network components, backprop, and more — from scratch.

idlemachines

Skip softmax, take argmax, and you still get answer.

#machinelearning #softmax #tutorial

"The transformer approach it describes has become the main architecture of a wide variety of AI, such as #LargeLanguageModels" #OutputProbabilities #Softmax Linear #Add&Norm #FeedForward #MultiHead Attention #MaskedMultiHead Attention #PositionalEncoding #OutputEmbedding #FeedForward

SoftMax: как нейросети превращают сырые числа в уверенные вероятности — разбор с примерами и математикой

В реальности всё полно оттенков: ничего чисто чёрного или белого, то же в машинном обучении, тк решения редко бывают абсолютными. Возьмём задачу: нейросеть анализирует фото еды и определяет, это пицца, суши или салат. Для двух классов хватит сигмоиды, но с несколькими нужна функция, которая раздаст вероятности по всем вариантам, чтобы их сумма была точно 1. Вот где и выходит SoftMax- стандарт для многоклассовой классификации. Сегодня разберём её от А до Я: интуицию, шаги, формулы и хитрости.

https://habr.com/ru/articles/988936/

#softmax #pytorch #функция_активации #backpropagation #deep_learning #нейросети #нейронные_сети #tensorflow #вероятностное_моделирование #функция_потерь

SoftMax: как нейросети превращают сырые числа в уверенные вероятности — разбор с примерами и математикой

В реальности всё полно оттенков: ничего чисто чёрного или белого, то же в машинном обучении, тк решения редко бывают абсолютными. Возьмём задачу: нейросеть анализирует фото еды и определяет, это...

Хабр

[Перевод] Путешествие токена: что конкретно происходит внутри трансформера

Из этой статьи вы узнаете о том, как трансформеры преобразуют входные данные в контекстно-зависимые представления и, в итоге, выдают вероятности, влияющие на выбор слов, которые генерируют большие языковые модели.

https://habr.com/ru/companies/wunderfund/articles/974300/

#Искусственный_интеллект #трафнсформеры #softmax

Путешествие токена: что конкретно происходит внутри трансформера

Из этой статьи вы узнаете о том, как трансформеры преобразуют входные данные в контекстно-зависимые представления и, в итоге, выдают вероятности, влияющие на выбор слов, которые генерируют большие...

Хабр

go-simd-softmax

Is a Go-oriented SIMD/avx softmax implementation with optimisations in amd64 / x64 assembler.

Up to 3.5x faster than equivalent function written using stdlib only. See benchmarks.

https://github.com/ha1tch/go-simd-softmax?tab=readme-ov-file#simd-accelerated-softmax

#go #foss #softmax #asm #assembler #x86_64 #x64 #amd64 #assembly #golang

GitHub - ha1tch/go-simd-softmax: SIMD/avx2-powered softmax implementation in Go for amd64/x64

SIMD/avx2-powered softmax implementation in Go for amd64/x64 - ha1tch/go-simd-softmax

GitHub