Тернарный KAN: не баг, а фича — почему дискретные веса работают лучше

Это продолжение поста “Две нейросети по 15 КБ” - там были базовые цифры. А тут уже личная история: как делалось, что пошло не так, и что выяснилось по пути. Май 2024 года. Выходит статья “KAN: Kolmogorov-Arnold Networks”. И происходит то, что бывает раз в несколько лет - кто-то предлагает альтернативу MLP. Не модификацию и не лайфхак - альтернативу. В MLP каждый нейрон делает weight × input + bias , и все 80 лет развития - это вариации на тему “как сделать этот вес точнее, быстрее, разреженнее”. KAN предлагает другое: заменить линейный вес на обучаемую функцию. Вроде мелкий трюк, а на практике - меньше параметров при той же точности и встроенная интерпретируемость. К 2026 году уже появились QuantKAN (4-битное квантование), KANtize (2-3-битные B-spline таблицы), BiKA (аппаратный акселератор, вдохновленный KAN). И все они, по сути, про одно - сделать KAN меньше, чтоб работал не только на GPU. Граница в три бита - она же психологическая. Ниже 4 бит у всех начинается «а вдруг всё сломается». И знаете что? Обычно так и есть. Любой, кто квантовал нейросети в 2 бита, знает: точность падает. Не чуть-чуть - катастрофически. Но {-1, 0, +1} - это даже не два бита, это log₂(3) ≈ 1.58 бита. Формально - между binary и ternary, а по ощущениям - чистое безумие. Ну я и решил попробовать.

https://habr.com/ru/articles/1049822/

#KAN #KolmogorovArnold_Networks #тернарные_веса #квантование #QAT #TinyML #Edge_AI #MNIST #регуляризация #STM32

Тернарный KAN: не баг, а фича — почему дискретные веса работают лучше

Вступление: зачем лезть в KAN Это продолжение поста “Две нейросети по 15 КБ” - там были базовые цифры. А тут уже личная история: как делалось, что пошло не так, и что выяснилось по пути. Май 2024...

Хабр

Я научил небольшой Transformer генерировать цифры одной нитью

Наверняка вы видели портреты, собранные из одной нити, натянутой между сотнями гвоздей. Я решил проверить: можно ли научить нейросеть генерировать не готовую картинку, а инструкцию, по которой такая картинка строится? Я провел простой эксперимент и превратил цифры MNIST в последовательности переходов между 256 гвоздями и обучил небольшой Transformer продолжать путь нити. В результате модель выдаёт не PNG, а JSON-траекторию, которую можно отрисовать в любом разрешении - или потенциально передать физической string-art установке

https://habr.com/ru/articles/1046912/

#Transformer #машинное_обучение #MNIST #string_art #обработка_изображений #генеративная_модель #autoregressive_generation #sequence_modeling #процедурная_генерация #Python

Я научил небольшой Transformer генерировать цифры одной нитью

Наверняка вы видели портреты, собранные из одной нити, натянутой между сотнями гвоздей. Я решил проверить: можно ли научить нейросеть генерировать не готовую картинку, а инструкцию, по которой такая...

Хабр

Taking this one step further, I also looked at #ConditionalGANs: Extending #GANs by conditioning both generator and discriminator on labels, so you can explicitly control what is generated. In the #MNIST case, this means generating specific digits and even smoothly interpolating between them:

🌍 https://www.fabriziomusacchio.com/blog/2023-07-30-cgan/

#MachineLearning #GenerativeAI #CGAN #GAN

(The attached GIF shows the interpolation between the digits 6 and 1)

Just came across an elegant new #SNN framework called #nervos by Maskeen and Lashkare, which implements a two layer SNN w/ local #STDP #learning to classify, e.g., #MNIST digits. Here is an example, where I apply it to a 6-class subset of MNIST. The model reaches around 85% accuracy & the learned synapses show digit-like patterns. Quite impressive in my view, given the simplicity of the architecture & the local learning rule:

🌍https://www.fabriziomusacchio.com/blog/2026-02-16-nervos_stdp_snn_simulation_on_mnist/

#CompNeuro #Neuroscience #NeuralPlasticity

PyTorch vs TensorFlow: что выбрать для deep learning в 2026 году

Выбор фреймворка для глубокого обучения — это стратегическое решение, влияющее на скорость разработки, стоимость и масштабируемость. Правило «PyTorch — для исследований, TensorFlow — для продакшена» больше не работает. К 2026 году оба фреймворка активно заимствуют лучшее друг у друга: PyTorch наращивает промышленные возможности (TorchServe, ExecuTorch), а TensorFlow с Keras 3 становится гибче для исследований. Согласно опросу Stack Overflow Developer Survey 2024 , PyTorch (10,6%) и TensorFlow (10,1%) находились примерно на одной отметке по частоте использования у разработчиков, а в исследовательских и AI-first-компаниях уверенно лидирует PyTorch . Но есть нюансы. Разобраться в особенностях фреймворков →

https://habr.com/ru/companies/netologyru/articles/995500/

#pytorch #tensorflow #глубокое_обучение #установка_окружения #MNIST #keras #тензоры #deep_learning #цикл_обучения #нейронные_сети

PyTorch vs TensorFlow: что выбрать для deep learning в 2026 году

Выбор фреймворка для глубокого обучения — это стратегическое решение, влияющее на скорость разработки, стоимость и масштабируемость. Правило «PyTorch — для исследований, TensorFlow — для продакшена»...

Хабр
🤔 Why use a deep learning library when you can painstakingly recreate one from scratch and rediscover every bug solved since 1970? 🚀 Just grab #NumPy, type until your fingers bleed, and hope for #MNIST magic. 💻✨ Perfect for those who love reinventing the wheel... with square edges. 🛞
https://zekcrates.quarto.pub/deep-learning-library/ #deep_learning #reinvent_the_wheel #programming #challenges #HackerNews #ngated
Build a Simple Deep Learning Library

🧠 New paper by Deistler et al: #JAXLEY: differentiable #simulation for large-scale training of detailed #biophysical #models of #NeuralDynamics.

They present a #differentiable #GPU accelerated #simulator that trains #morphologically detailed biophysical #neuron models with #GradientDescent. JAXLEY fits intracellular #voltage and #calcium data, scales to 1000s of compartments, trains biophys. #RNNs on #WorkingMemory tasks & even solves #MNIST.

🌍 https://doi.org/10.1038/s41592-025-02895-w

#Neuroscience #CompNeuro

Долгая дорога к DiT (часть 2)

Первая треть пути преодолена и совсем скоро мы создадим генератор картинок на целиком на архитектуре трансформеров. Но перед тем как совершить финальный скачок к Diffusion Transformers (DiT) нам сначала надо научиться работать с готовыми датасетами и освоить генерацию изображений "простым" способом - через MLP-ResNet. Статья является прямым продолжением первой части , так что советую сначала ознакомиться с ней, чтобы понимать откуда всё началось. Будет много про работу с датасетами. И вообще статья получилась какой-то неприлично большой.

https://habr.com/ru/articles/960324/

#Python #pytorch #diffusion_models #mnist

Долгая дорога к DiT (часть 2)

Новая задача Продолжаем то, на чём остановились в первой части. Напомню, нам удалось создать модель, которая может трансформировать простое (нормальное) распределение в целевое. Вот только работала...

Хабр

Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов. Часть 2

Предисловие. Опубликовав первую часть понял, что само обучение перцептрона мало кого интересует, пока не будет экспериментальных результатов. И это разрешило мою дилемму о том, как сократить изложение для хабра. Мы пропустим разделы с объяснением архитектуры перцептрона TL&NL и начнем сразу с 4 раздела моей статьи. 4. Точность прогнозирования В предыдущих разделах, мы стремились уменьшить число признаков (А - элементов), требуемых для решения задачи. И это понятно, т.к. обработка меньшего числа признаков требует меньше вычислительных затрат. Но выделяя только минимальное число признаков (и соответствующих A-элементов), и обучаясь только на части всех возможных примеров, мы рискуем построить слишком грубую модель. Её будет достаточно для решения задачи на обучающем множестве, но она будет плохо предсказывать. Представьте, что мы аппроксимируем окружность, и примеры нам показывают, что это многоугольник и во время прогнозирования мы исходим из того, на сколько углов мы обучили свою сеть. Поэтому, задача исследования в этом разделе состоит не в минимизации А-элементов, а в нахождении такого их количества, которое стабилизирует модель обобщения, которую строит перцептрон. Что означает стабилизация станет ясно из последующего изложения. Для анализа точности прогнозирования будем использовать классические тесты MNIST по распознаванию рукописных цифр и MNIST Fashion по распознаванию пиктографических изображений одежды. 4.1. О методологии экспериментов Отсутствие пред- и постобработки. Это не всегда очевидно, и различные исследователи часто явно или не явно используют некоторую предобработку обучающей и тестовой выборки. Мы должны строго разграничить обучающую выборку от тестовой, так, как например в результате некой нормализации происходит “подсказки от экспериментатора”, что не допустимо. Например, используя некие статистические характеристики и одинаково нормализуя обучающую и тестовую выборки происходит утечка информации, передача признаков тестовой выборки из обучающей выборки, или наоборот. По сути, это сводится к тому, что экспериментатор, зная тестовую выборку, косвенно подсказывает алгоритму, как ему обучаться. Поэтому важно, чтобы тестовая выборка была строго отделена от обучающей. Кроме того, мы хотим исследовать как именно работает алгоритм, а не то, как дополнительные манипуляции помогают решить задачу. Еще более важным, это становится при сравнении алгоритмов, в нашем случае перцептрона TL&NL с MLP+backprop. Поэтому в рамках наших экспериментов мы намеренно не допускаем никакой пред- и постобработки, за единственным исключением. В MNIST точки изображения даны в градации серого от 0 до 255. А нейросети удобнее работать с величинами на отрезке [0;1]. Поэтому единственную нормализацию, которую мы допускаем является разделение значения цвета на 255, как для обучающей, так и тестовой выборки.

https://habr.com/ru/articles/958498/

#перцептрон #исследование #искусственный_интеллект #mnist

Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов. Часть 2

Предисловие. Опубликовав первую часть понял, что само обучение перцептрона мало кого интересует, пока не будет экспериментальных результатов. И это разрешило мою дилемму о том, как сократить изложение...

Хабр

DCGAN×MNIST:学習データ量の違いで生成画像はどう変わる?Lossと質の限界をチェック!
https://qiita.com/ntaka329/items/1c7bb3ec3e7329b6ff26?utm_campaign=popular_items&utm_medium=feed&utm_source=popular_items

#qiita #機械学習 #AI #TensorFlow #MNIST #DCGAN

DCGAN×MNIST:学習データ量の違いで生成画像はどう変わる?Lossと質の限界をチェック! - Qiita

はじめに GMOコネクトの永田です。 前回の記事でDCGAN(Deep Convolutional Generative Adversarial Networks)を試しているとき、学習に利用するデータ量がどの程度結果に影響するんだろう?と、ふと疑問に思ったので試してみま...

Qiita