A History on the “Impossible” VLIW Computing
https://fed.brid.gy/r/https://hackaday.com/2026/04/07/a-history-on-the-impossible-vliw-computing/
A History on the “Impossible” VLIW Computing
https://fed.brid.gy/r/https://hackaday.com/2026/04/07/a-history-on-the-impossible-vliw-computing/
Hello XDNA!
We're documenting how to program AMD's NPUs in Ryzen AI chips.
Our website covers the ISA, register files, operation latencies, and hand-optimized assembly kernels for tensor contractions.
Measured single-compute-tile throughput:
• XDNA1 (Ryzen 7 8700G): 398 BF16 GFLOPS (86% of peak)
• XDNA2 (Ryzen AI Max PRO 390): 1760 BFP16 GFLOPS (95% of peak)
Может ли устареть инкремент: обзор выполнения оператора на современных вычислительных платформах
Привет, Хабр! В ходе своей работы я часто изучаю сам и обучаю других писать и оптимизировать код. Однако когда я рекомендую в своих материалах «делайте так», я не всегда уверен, что тиражирую актуальную и достоверную информацию. Для подтверждения своих слов я изучаю и цитирую авторитетные источники, рекомендуемые в подборках книг, материалах конференций и курсах по C и C++. Тем не менее этого оказывается недостаточно. Скачав и углубившись в руководства по архитектуре, системам команд и оптимизации с официальных сайтов производителей вычислительных устройств, я обнаруживаю, что информация расходится. Возникает проблема: я перестаю чувствовать уверенность в своём опыте и в материале, который хотел тиражировать другим. В этой статье мы разберём один из таких примеров. Возьмём небольшой пример кода, сформируем рекомендации по его эффективному написанию и оценим, насколько сложно (и возможно ли вообще) обосновать их применение. Для этого мы проанализируем рекомендации учебников по программированию, оценим их качество и актуальность. Если они окажутся недостаточными, то обратимся к руководствам производителей «железа». Рассмотрим «простой» пример цикла, выполняющего сложение двух массивов. Слово «простой» взято в кавычки не случайно. Даже тезисное обсуждение эффективных методов сложения массивов на GPU (NVIDIA или AMD) с коллегами занимает несколько часов. Полноценно раскрыть эту тему в одной статье невозможно. Поэтому сосредоточимся лишь на части примера – операции инкремента «i++» в управляющей части цикла. Для анализа обратимся к книгам, рекомендованным на профильных it-ресурсах: Хабр, Яндекс.Практикум, Proglib и др. Чтобы уточнить информацию, рассмотрим официальные руководства следующих производителей вычислительных устройств: CISC (Intel, AMD), VLIW (МЦСТ, Texas Instruments), RISC (Apple, Qualcomm, MediaTek и др.) и GPU (NVIDIA, AMD).
Моё знакомство с процессором Эльбрус-8СВ. Оптимизирую сложение массива байтов
Месяц назад мне в телеграм написал человек и предложил доступ к системе с процессором Эльбрус-8СВ. И, конечно же, я согласился. Так как мне интересно. Не каждый день неизвестные люди в Интернете предлагают доступ к удалённым хостам. Разве может что-то пойти не так?
https://habr.com/ru/articles/978730/?utm_source=habrahabr&utm_medium=rss&utm_campaign=978730
#эльбрус8св #эльбрус #e2k #vliw #simd #интринсики #ассемблер #си #оптимизация_кода
Моё знакомство с процессором Эльбрус-8СВ. Оптимизирую сложение массива байтов
Месяц назад мне в телеграм написал человек и предложил доступ к системе с процессором Эльбрус-8СВ. И конечно же я согласился. Так как мне интересно. Не каждый день неизвестные люди предлагают доступ к удалённым хостам. Разве может что-то пойти не так?
https://habr.com/ru/articles/978730/
#эльбрус8св #эльбрус #e2k #vliw #simd #интринсики #ассемблер #си #оптимизация_кода
@rl_dane @mdc I wonder how #uxn opcodes compare to what F18 chips from #GreenArrays have.
Only 32 opcodes, 8 of them special (can be used in th last 3 bits of a kind of 18-bit #VLIW word) versus 256 opcodes of #uxn
#varvara offers much more high level i/o, F18A has 4 interchip ports, GPIO, A/D interface and SERDES, which can be used to build things like Ethernet for example.
varvara-fpga does not implement most varvara I/O features at all.
https://www.greenarraychips.com/home/documents/greg/DB001-221113-F18A.pdf
https://www.greenarraychips.com/home/documents/greg/PB004-110412-F18A-IO.pdf
Эльбрус-2 в сравнении с основными суперкомпьютерами 1960–1980-х годов
Многопроцессорный вычислительный комплекс (МВК) «Эльбрус-2», созданный в СССР в 1984–1985 годах, является выдающимся достижением советской вычислительной техники и заслуживает высокой оценки по ряду ключевых параметров — числу процессоров, архитектуре и производительности, существенно опережающим многие зарубежные аналоги своего времени.
@DosFox it’s Solo, a cancelled Transmeta SoC, which paired a Crusoe with peripherals including a graphics adapter. Alas, before we got it back Microsoft raised the Windows graphics requirements rendering it nonviable. A pair of energetic souls did bring it up to a Windows desktop, but that was the end of Solo. So tragic. (A check from Donald Knuth is photo bombing the corner)
First time I supervised a master thesis, man I am getting old.
It was extremely fun though to see someone explore #DSP applications and mapping them to a #NPU with great success.
While perhaps no surprise as both use streaming processing, dataflow architectures and #VLIW microarchitectures. It is great to have the NPUs available in modern processors effectively allowing for accelerated #SDR or #DSP on mobile devices.
You can find the work here: https://repository.tudelft.nl/record/uuid:8dc57766-6205-4eb6-a8b2-48550198a9ee