Hello XDNA!

We're documenting how to program AMD's NPUs in Ryzen AI chips.

Our website covers the ISA, register files, operation latencies, and hand-optimized assembly kernels for tensor contractions.

Measured single-compute-tile throughput:
• XDNA1 (Ryzen 7 8700G): 398 BF16 GFLOPS (86% of peak)
• XDNA2 (Ryzen AI Max PRO 390): 1760 BFP16 GFLOPS (95% of peak)

https://tnzr.org/xdna

#AMD #RyzenAI #NPU #XDNA #XDNA2 #AssemblyLanguage #VLIW

Overview — Hello XDNA

Может ли устареть инкремент: обзор выполнения оператора на современных вычислительных платформах

Привет, Хабр! В ходе своей работы я часто изучаю сам и обучаю других писать и оптимизировать код. Однако когда я рекомендую в своих материалах «делайте так», я не всегда уверен, что тиражирую актуальную и достоверную информацию. Для подтверждения своих слов я изучаю и цитирую авторитетные источники, рекомендуемые в подборках книг, материалах конференций и курсах по C и C++. Тем не менее этого оказывается недостаточно. Скачав и углубившись в руководства по архитектуре, системам команд и оптимизации с официальных сайтов производителей вычислительных устройств, я обнаруживаю, что информация расходится. Возникает проблема: я перестаю чувствовать уверенность в своём опыте и в материале, который хотел тиражировать другим. В этой статье мы разберём один из таких примеров. Возьмём небольшой пример кода, сформируем рекомендации по его эффективному написанию и оценим, насколько сложно (и возможно ли вообще) обосновать их применение. Для этого мы проанализируем рекомендации учебников по программированию, оценим их качество и актуальность. Если они окажутся недостаточными, то обратимся к руководствам производителей «железа». Рассмотрим «простой» пример цикла, выполняющего сложение двух массивов. Слово «простой» взято в кавычки не случайно. Даже тезисное обсуждение эффективных методов сложения массивов на GPU (NVIDIA или AMD) с коллегами занимает несколько часов. Полноценно раскрыть эту тему в одной статье невозможно. Поэтому сосредоточимся лишь на части примера – операции инкремента «i++» в управляющей части цикла. Для анализа обратимся к книгам, рекомендованным на профильных it-ресурсах: Хабр, Яндекс.Практикум, Proglib и др. Чтобы уточнить информацию, рассмотрим официальные руководства следующих производителей вычислительных устройств: CISC (Intel, AMD), VLIW (МЦСТ, Texas Instruments), RISC (Apple, Qualcomm, MediaTek и др.) и GPU (NVIDIA, AMD).

https://habr.com/ru/articles/983566/

#isa #cpu #gpu #risc #cisc #vliw #программирование

Может ли устареть инкремент: обзор выполнения оператора на современных вычислительных платформах

Привет, Хабр! В ходе своей работы я часто изучаю сам и обучаю других писать и оптимизировать код. Однако когда я рекомендую в своих материалах «делайте так», я не всегда уверен, что тиражирую...

Хабр

Моё знакомство с процессором Эльбрус-8СВ. Оптимизирую сложение массива байтов

Месяц назад мне в телеграм написал человек и предложил доступ к системе с процессором Эльбрус-8СВ. И, конечно же, я согласился. Так как мне интересно. Не каждый день неизвестные люди в Интернете предлагают доступ к удалённым хостам. Разве может что-то пойти не так?

https://habr.com/ru/articles/978730/?utm_source=habrahabr&utm_medium=rss&utm_campaign=978730

#эльбрус8св #эльбрус #e2k #vliw #simd #интринсики #ассемблер #си #оптимизация_кода

Моё знакомство с процессором Эльбрус-8СВ. Оптимизирую сложение массива байтов

Месяц назад мне в телеграм написал человек и предложил доступ к системе с процессором Эльбрус-8СВ. И, конечно же, я согласился. Так как мне интересно. Не каждый день неизвестные люди в Интернете...

Хабр

Моё знакомство с процессором Эльбрус-8СВ. Оптимизирую сложение массива байтов

Месяц назад мне в телеграм написал человек и предложил доступ к системе с процессором Эльбрус-8СВ. И конечно же я согласился. Так как мне интересно. Не каждый день неизвестные люди предлагают доступ к удалённым хостам. Разве может что-то пойти не так?

https://habr.com/ru/articles/978730/

#эльбрус8св #эльбрус #e2k #vliw #simd #интринсики #ассемблер #си #оптимизация_кода

Моё знакомство с процессором Эльбрус-8СВ. Оптимизирую сложение массива байтов

Месяц назад мне в телеграм написал человек и предложил доступ к системе с процессором Эльбрус-8СВ. И, конечно же, я согласился. Так как мне интересно. Не каждый день неизвестные люди в Интернете...

Хабр
バイナリコードを販売してユーザに実行させようという観点からすれば #VLIW なんて夢のまた夢で、 #スーパースカラ#RISC で競合しない命令をガンガン実行させる方がいいに決まってるでしょ。それとも #Itanium のころの #Intel はすべてが #Java になるとでも思っていらっしゃった?

@rl_dane @mdc I wonder how #uxn opcodes compare to what F18 chips from #GreenArrays have.

Only 32 opcodes, 8 of them special (can be used in th last 3 bits of a kind of 18-bit #VLIW word) versus 256 opcodes of #uxn

#varvara offers much more high level i/o, F18A has 4 interchip ports, GPIO, A/D interface and SERDES, which can be used to build things like Ethernet for example.
varvara-fpga does not implement most varvara I/O features at all.

https://www.greenarraychips.com/home/documents/greg/DB001-221113-F18A.pdf

https://www.greenarraychips.com/home/documents/greg/PB004-110412-F18A-IO.pdf

Эльбрус-2 в сравнении с основными суперкомпьютерами 1960–1980-х годов

Многопроцессорный вычислительный комплекс (МВК) «Эльбрус-2», созданный в СССР в 1984–1985 годах, является выдающимся достижением советской вычислительной техники и заслуживает высокой оценки по ряду ключевых параметров — числу процессоров, архитектуре и производительности, существенно опережающим многие зарубежные аналоги своего времени.

https://habr.com/ru/articles/942060/

#суперкомпьютер #эльбрус #мэинфреймы #vliw

Эльбрус-2 в сравнении с основными суперкомпьютерами 1960–1980-х годов

Многопроцессорный вычислительный комплекс (МВК) «Эльбрус-2», созданный в СССР в 1984–1985 годах, является выдающимся достижением советской вычислительной техники и заслуживает высокой оценки по ряду...

Хабр

@DosFox it’s Solo, a cancelled Transmeta SoC, which paired a Crusoe with peripherals including a graphics adapter. Alas, before we got it back Microsoft raised the Windows graphics requirements rendering it nonviable. A pair of energetic souls did bring it up to a Windows desktop, but that was the end of Solo. So tragic. (A check from Donald Knuth is photo bombing the corner)

#Transmeta #CMS #VLIW #ASIC

First time I supervised a master thesis, man I am getting old.

It was extremely fun though to see someone explore #DSP applications and mapping them to a #NPU with great success.

While perhaps no surprise as both use streaming processing, dataflow architectures and #VLIW microarchitectures. It is great to have the NPUs available in modern processors effectively allowing for accelerated #SDR or #DSP on mobile devices.

You can find the work here: https://repository.tudelft.nl/record/uuid:8dc57766-6205-4eb6-a8b2-48550198a9ee

Exploration of the AMD Ryzen NPU for Real-time Signal Processing | TU Delft Repository

TIL that the very inventor of #VLIW, Joseph A. Fisher, has the definitive text on it: Embedded Computing: A VLIW Approach to #Architecture, #Compilers and Tools.

It seem to describe a nop compression scheme that can be seem as doing the same thing the modern GPU is doing.