Как на самом деле устроены большие языковые модели: от токенов до трансформера и дальше https://research.evsyukov.org/articles/kak-ustroeny-llm-transformery/
Как на самом деле устроены большие языковые модели: от токенов до трансформера и дальше
Когда говорят про большие языковые модели, разговор почти всегда упирается в одно слово — трансформер. Это правда важная деталь, но если остановиться только на ней, картина получится перекошенной. Трансформер — это двигатель. А машина едет не на одном двигателе: нужны колёса, топливо, дорога и тот, кто крутил руль на этапе обучения. Эта статья разбирает всю конструкцию подробно: от базовых понятий — токенов и эмбеддингов — через внутреннее устройство трансформера со всеми его оптимизациями до обучения, масштаба и того, что иногда важнее самой архитектуры.