Using the proposed Zvdot4a8i RVV extension for number parsing.

Zvdot4a8i: https://github.com/riscv/riscv-isa-manual/pull/2576

Not quite as good as it would be with 2x widening instructions, and non accumulating variants (like SSE), but still quite nice. Especially how the sifts worked out.

#simd #riscv #rvv

🌗 利用 ARM NEON 指令集實現每秒數十 GB 的前綴和運算
➤ 突破序列計算瓶頸,探究高效能向量化算法
https://lemire.me/blog/2026/03/08/prefix-sums-at-tens-of-gigabytes-per-second-with-arm-neon/
在資料處理中,「前綴和」(Prefix Sum)是常見的需求,即計算序列的累加總和。傳統的 C 語言迴圈方法受限於逐項累加的序列依賴性,效能通常受限於處理器的時脈頻率。Daniel Lemire 在本文中探討如何突破此限制,利用 ARM NEON 的 SIMD(單指令多數據流)技術,通過並行化向量運算,顯著提升計算吞吐量,達到每秒處理數十 GB 資料的驚人速度。
+ 這種透過位移與加法(shift-and-add)來達成向量化前綴和的技巧非常優雅,對於大數據處理系統來說是極佳的效能優化手段。
+ 雖然理論上講前綴和具有序列依賴性,但透過 NEON 暫存器內的並行處理,確實能將效能推向極致。這再次證明瞭
#軟體效能優化 #ARM NEON #SIMD #前綴和 (Prefix Sum)
Prefix sums at tens of gigabytes per second with ARM NEON

Suppose that you have a record of your sales per day. You might want to get a running record where, for each day, you are told how many sales you have made since the start of the year. day sales per day running sales 1 10$ 10 $ 2 15$ 25 $ 3 5$ 30 … Continue reading Prefix sums at tens of gigabytes per second with ARM NEON

Daniel Lemire's blog

The RVP spec is coming along: https://github.com/riscv/riscv-p-spec/blob/master/P-ext-proposal.adoc

Here is a untested implementation of JPEG upsample in RVP: https://godbolt.org/z/r5bGGPsj5

Note that this uses the current draft intrinsics. With the overloaded intrinsics this will be a lot less verbose. __riscv_preinterpret is still way to long IMO.

#riscv #RVP #simd

riscv-p-spec/P-ext-proposal.adoc at master · riscv/riscv-p-spec

RISC-V Packed SIMD Extension. Contribute to riscv/riscv-p-spec development by creating an account on GitHub.

GitHub

https://github.com/NoNaeAbC/std_simd/blob/main/README.md

...this is nice bait, I clicked.

Honestly I like boomer loops. Boomer loops are simple, easy to understand, you just have to avoid sticking twenty-seven of those inside one gigantic function like our current codebase.

#cpp #simd

The Evolution of x86 SIMD: From SSE to AVX-512 | BGs Labs

Burak Güngörs lab where he does some stuff

How many registers does an x86-64 CPU have?

Маски, Каскады, использование масок вместо циклов(В некоторых случаях) + Атомарные инструкции

Привет Хабр! Сегодня я решил закрыть трилогию статей, а закончи парой не мало важных тем. Хочу сказать огромное спасибо тем кто активничает и задает вопросы. Ну что ж, начнем.

https://habr.com/ru/articles/996432/

++ #simd #mask #atomic #lowlevel #guide #optimization

Маски, Каскады, использование масок вместо циклов(В некоторых случаях) + Атомарные инструкции

Привет Хабр! Сегодня я решил закрыть трилогию статей, а закончи парой не мало важных тем. Хочу сказать огромное спасибо тем кто активничает и задает вопросы. Ну что ж, начнем. Mask как то я в одной из...

Хабр

SIMDe, дополнение к DOD архетектуре

Привет, Хабр! Для начала хочу сказать огромное спасибо всем, кто прочитал и прокомментировал мою прошлую статью про Data-Oriented Design . Честно говоря, я ожидал дискуссии, но такой накал страстей вокруг кэш-миссов, структур данных и «смерти ООП» меня приятно удивил. Приятно видеть, что оптимизация и понимание того, как данные текут через железо, всё еще волнуют сообщество. Я внимательно изучил все ваши аргументы — от «компилятор сам всё сделает» до «это невозможно поддерживать в реальных проектах». И вместо того, чтобы отвечать каждому в ветке комментариев, я решил подготовить этот материал. Многие из вас совершенно справедливо заметили: DOD — это круто, но какой в нем смысл, если мы упираемся в зоопарк архитектур? Мы раскладываем данные в памяти идеально ровно, но как только пытаемся применить к ним SIMD-инструкции (чтобы получить тот самый 10-кратный буст), мы попадаем в ловушку вендор-лока. Написал под Intel — не работает на ARM. Написал под ARM — не заведется в браузере. Сегодня я хочу показать инструмент, который снимает этот вопрос и делает «низкоуровневую магию» действительно универсальной. Речь пойдет о SIMDe (SIMD Everywhere) .

https://habr.com/ru/articles/995072/

#программирование #simd #objectivec #алгоритмы #советы #советы_и_рекомендации #советы_разработчику

SIMDe, дополнение к DOD архетектуре

Привет, Хабр! Для начала хочу сказать огромное спасибо всем, кто прочитал и прокомментировал мою прошлую статью про  Data-Oriented Design . Честно говоря, я ожидал дискуссии, но такой накал...

Хабр

JavaScriptové runtime Bun – rychlé a „all-in-one“ prostředí pro vývoj serverových i frontend aplikací – vydává novou aktualizaci v1.3.9. Tato verze přináší několik užitečných funkcí, oprav a vylepšení výkonu, které usnadní vývojářům práci ve složitějších projektech.

Novinky:

Paralelní a sekvenční spouštění skriptů – pomocí příkazů bun run […]

https://zdrojak.cz/zpravicky/nova-verze-bun-v1-3-9/

Glaze tiếp tục nhanh hơn nhờ tối ưu SIMD và xử lý khoảng trắng thông minh. Cập nhật từ GitHub PR #2270 và thảo luận trên Reddit.
#Programming #Glaze #SIMD #Bảncậpnhật #Vietnam #CộngđồngMastodon

https://www.reddit.com/r/programming/comments/1qoonvl/glaze_is_getting_even_faster_simd_refactoring_and/