Стресс-тест функций активации: GELU vs Tanh

В современных нейросетях, включая LLM на базе Transformer, стандартом стали неограниченные функции активации — ReLU и GELU. Их основное преимущество, хорошая проходимость градиентов и быстрое обучение глубоких моделей. Однако на практике наблюдается проблема: при появлении доминирующих паттернов или высокочастотного шума во входном контексте (длинные диалоги, шумные данные, повторяющиеся или доминирующие токены) модели становятся нестабильными и склонными к деградации генерации и галлюцинациям. В этой статье я попытался выяснить, связан ли принципиально выбор функции активации с галлюцинациями LLM.

https://habr.com/ru/articles/988690/

#искусственный_интеллект #gelu #tanh

Стресс-тест функций активации: GELU vs Tanh

В современных нейросетях, включая LLM на базе Transformer, стандартом стали неограниченные функции активации — ReLU и GELU. Их основное преимущество, хорошая проходимость градиентов и быстрое обучение...

Хабр
Activation Functions: The 'Secret Sauce' of Deep Learning

Explore how activation functions evolved from simple switches to sophisticated gating mechanisms that power today's most advanced AI models like LLaMA and GPT

TechLife

"GELU Activation Function in Deep Learning: A Comprehensive Mathematical Analysis and Performance"

"Our findings reinforce the exceptional performance of the GELU activation function, which attains the highest test accuracy and lowest test loss among the activation functions investigated. Other activation functions, such as Hardswish and ReLU6, exhibit commendable performance as well..."

#GELU #ReLU #HardShrink #leakyReLU #ReLU6

🔗https://arxiv.org/pdf/2305.12073v1.pdf