MoE vs. SSM: Два пути из «Тирании Квадрата» Трансформеров

Архитектура Трансформеров уперлась в стену квадратичной сложности O(n²), или «Тиранию Квадрата». В статье мы разбираем два пути решения этой проблемы: Mixture-of-Experts (MoE), масштабирующий знания, и State Space Models (SSM), масштабирующий контекст. Это сравнительный анализ архитектур, которые определяют будущее AI.

https://habr.com/ru/articles/949826/

#llm #moe #ssm #архитектура_трансформер #квадратичная_сложность #State_Space_Models #Mixture_of_Experts

MoE vs. SSM: Два пути из «Тирании Квадрата» Трансформеров

Архитектура Трансформеров, без сомнения, гениальна. Ее механизм внимания позволил моделям увидеть связи и зависимости в данных с невиданной ранее глубиной. Однако у этой конструкции есть врожденный...

Хабр