Реставрация ruGPT-3 XL или как я вернул к жизни забытую русскую языковую модель

Несколько дней к ряду я занимался реставрацией легаси модели ai-forever/rugpt3xl , это классическая языковая модель от SberDevices на 1.3B параметров, крошка по современным меркам, на которой сберовцы обкатывали свои научные наработки аж в далёком 2021м году. Подробнее о ней можно почитать в статье “A family of pretrained transformer language models for Russian” на Google Scholar. Да, она foundation, то есть умеет только продолжать текст, не может выполнять инструкции или работать в режиме чата. Но обучена она на корпусе русского языка и этот самый русский генерит очень бодро. У неё есть две примечательные особенности: её обучали с нуля, архитектура представляет собой глубокую модификацию GPT-2.

https://habr.com/ru/articles/1016148/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1016148

#rugpt3 #реставрация #нейросеть #gguf #safetensors #python #ollama #huggingface #модель #llm

Реставрация ruGPT-3 XL или как я вернул к жизни забытую русскую языковую модель

Несколько дней к ряду я занимался реставрацией легаси модели ai-forever/rugpt3xl , это классическая языковая модель от SberDevices на 1.3B параметров, крошка по современным меркам, на которой сберовцы...

Хабр