MoE vs. SSM: Два пути из «Тирании Квадрата» Трансформеров
Архитектура Трансформеров уперлась в стену квадратичной сложности O(n²), или «Тиранию Квадрата». В статье мы разбираем два пути решения этой проблемы: Mixture-of-Experts (MoE), масштабирующий знания, и State Space Models (SSM), масштабирующий контекст. Это сравнительный анализ архитектур, которые определяют будущее AI.
https://habr.com/ru/articles/949826/
#llm #moe #ssm #архитектура_трансформер #квадратичная_сложность #State_Space_Models #Mixture_of_Experts