Стресс-тест функций активации: GELU vs Tanh

В современных нейросетях, включая LLM на базе Transformer, стандартом стали неограниченные функции активации — ReLU и GELU. Их основное преимущество, хорошая проходимость градиентов и быстрое обучение глубоких моделей. Однако на практике наблюдается проблема: при появлении доминирующих паттернов или высокочастотного шума во входном контексте (длинные диалоги, шумные данные, повторяющиеся или доминирующие токены) модели становятся нестабильными и склонными к деградации генерации и галлюцинациям. В этой статье я попытался выяснить, связан ли принципиально выбор функции активации с галлюцинациями LLM.

https://habr.com/ru/articles/988690/

#искусственный_интеллект #gelu #tanh

Стресс-тест функций активации: GELU vs Tanh

В современных нейросетях, включая LLM на базе Transformer, стандартом стали неограниченные функции активации — ReLU и GELU. Их основное преимущество, хорошая проходимость градиентов и быстрое обучение...

Хабр
As promised, here's a picture of the patch.

On the far right is the #tanh, on its left #BIA and on its left #QueenOfPentacles.

#tanh is a limiter/saturator, depending on how you set the knob, #BIA is a FM percussion synthesis module, but I'm using it in a melodic way for bass sound. #QueenOfPentacles is a drum synthesizer, sampler and effects module.
I managed to sneakily record a new #RandomLoop ! Actually, it's two for the price of one today.

Pretty harsh sounds, but melodic too. Definite overuse of compression :D

One can hear sounds generated and treated by the #QueenOfPentacles and the #BasimilusIteritasAlter (aka #BIA) from #NoiseEngineering and #tanh from #Instruo. The patch itself is pretty simple: #BIA feeds into #tanh, doing saturation (crunchy crunchy crunchy sound), which then feeds into the auxiliary input of #QueenOfPentacles. And that's it really! I'll attach a picture after this toot.

No post treatment, recorded live.

Enjoy! (Mind the volume, it has quite a range of soft and clicky sounds)