Я попробовал считать нейросетевой слой в конечном поле Галуа GF(137): 4x по памяти, ARM NEON и честные ограничения

Я проверил маленький нейросетевой слой в арифметике GF(137): не через квантизацию готовой float32-модели, а сразу в байтовом конечнополевом представлении. В лучшем замере получилось около 4x по памяти и до 4.86x по времени относительно моей NumPy float32-реализации. Внутри — код нативного ядра, ARM NEON, таблица запусков и честный разбор, где результат не сработал.

https://habr.com/ru/articles/1044172/

#GF137 #конечныеполя #периферийныйинференс #ARMNEON #uint8 #benchmark #cpp #воспроизводимость

Я попробовал считать нейросетевой слой в конечном поле Галуа GF(137): 4x по памяти, ARM NEON и честные ограничения

В современных нейросетях критически важно, сколько физической памяти занимает каждый параметр. В этой работе я попытался уйти от классического float32 в нейросетевом слое к uint8 без квантования. Для...

Хабр
🚫🤖 Ah, the elusive "prefix sums" article—where you learn absolutely nothing about ARM NEON but everything about web developers' favorite error code: 403 Forbidden! Who knew gigabytes per second referred to the speed at which you get denied access? 🙄🔒
https://lemire.me/blog/2026/03/08/prefix-sums-at-tens-of-gigabytes-per-second-with-arm-neon/ #prefixsums #403forbidden #webdevelopment #ARMNEON #errors #gigabytespersecond #HackerNews #ngated
Prefix sums at tens of gigabytes per second with ARM NEON

Suppose that you have a record of your sales per day. You might want to get a running record where, for each day, you are told how many sales you have made since the start of the year. day sales per day running sales 1 10$ 10 $ 2 15$ 25 $ 3 5$ 30 … Continue reading Prefix sums at tens of gigabytes per second with ARM NEON

Daniel Lemire's blog