[Перевод] Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA

Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы). Для полного обучения той же модели нужно уже 84–128 ГБ памяти. Даже с такими методами, как checkpointing активаций или offloading на CPU, требования остаются высокими, особенно для моделей с 70 миллиардами параметров. Квантизация помогает снизить требования к памяти, уменьшая точность представления весов модели без значительной потери качества. В этой статье разберём основные форматы числовой точности, используемые в квантизации LLM, их особенности и ограничения. Также рассмотрим NF4 — ключевую инновацию из статьи про QLoRA, и разберём, зачем нужны такие методы, как блочная квантизация, двойная квантизация и квантизация по квантилям.

https://habr.com/ru/articles/1035626/

#llm #квантизация #NF4 #qlora #lora #оптимизация_моделей

Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRA

Большие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы)....

Хабр

[Перевод] Как дообучать локальные LLM в 2026 году: практическое руководство

В 2026 году дообучение локальных LLM перестало быть задачей «для тех, у кого есть кластер и бюджет». Снижение требований к VRAM, развитие QLoRA и появление инструментов вроде Unsloth сделали возможным запуск полноценного fine-tuning на обычной потребительской видеокарте. Это меняет практику: теперь модель можно адаптировать под свои задачи без облаков и внешних API, контролируя и данные, и поведение. В статье разбирается весь процесс — от момента, когда вообще стоит задуматься о дообучении, до подготовки датасета, настройки обучения и оценки результата. Без абстракций и с фокусом на реальных ограничениях: память, время, качество данных и то, как не получить на выходе модель, которая «что-то выучила», но работать с ней невозможно. Открыть материал

https://habr.com/ru/companies/otus/articles/1026700/

#LLM #локальные_llm #дообучение #fine_tuning #дообучение_LLM #локальные_модели #QLoRA #RAG #LoRA

Как дообучать локальные LLM в 2026 году: практическое руководство

В 2026 году возможность дообучения локальных LLM стала реальной опцией для отдельных разработчиков и небольших команд. Это стало возможным благодаря снижению требований к видеопамяти (VRAM), развитию...

Хабр

Как за 30 000р дообучить модель, которая работает на уровне GPT-5.4 — на задачах российских учителей

В первой статье мы протестировали 30 нейросетей на задачах российских учителей — российские модели оказались последними. На 9 месте стоит наша: дообученная Qwen3.5-27B за 30 000 рублей, работающая локально, на уровне GPT-5.4 на образовательных задачах. Рассказываем, как сделали — включая провал 32B-версии.

https://habr.com/ru/articles/1026516/

#искусственный_интеллект #llm #машинное_обучение #qlora #finetuning #qwen #образование #russian_ai

Как за 30 000р дообучить модель, которая работает на уровне GPT-5.4 — на задачах российских учителей

Продолжение. В первой статье мы протестировали 30 нейросетей на задачах для российских учителей. Российские модели заняли последние места. Но строчка #9 — наша: дообученная модель за ~30 000₽, которая...

Хабр

От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно и хотя бы делала вид, что понимает вопрос, — вам нужны были армия аннотаторов и бюджет уровня OpenAI. Четыре года спустя у нас зоопарк из десятка методов выравнивания, половину из которых можно запустить на одной RTX 4090 за выходные. DPO убрал reward model. SimPO убрал reference model. GRPO и DeepSeek R1 доказали, что RL жив — но в новой форме. Anthropic опубликовала конституцию Claude на ~80 страниц в открытом доступе и сменила парадигму: от правил к причинам. Мир изменился. Разбираемся, как именно. В статье — полная история пост-обучения от RLHF до Constitutional AI, математика ключевых методов (в спойлерах, без боли), рабочий код на TRL + QLoRA с гиперпараметрами, большие сравнительные таблицы и дерево решений «что выбрать для вашей задачи». Плюс честный разговор о проблемах, о которых не пишут в туториалах: distribution mismatch, reward hacking, catastrophic forgetting и почему модели умеют «притворяться» выровненными. Для разработчиков, ML-инженеров и всех, кто хоть раз открывал Hugging Face и думал: «а что если я это fine-tune...»

https://habr.com/ru/articles/1002298/

#LLM #RLHF #DPO #finetuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional_AI #языковые_модели

От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM

В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно, не генерировала токсичность и хотя бы делала вид, что...

Хабр

🔧 Đang tinh chỉnh LLaMA 3.1 8B bằng QLoRA, muốn mô hình trò chuyện song ngữ (ES‑EN) có cá tính, hài hước, không dịch máy. Cần lời khuyên: tỉ lệ dữ liệu tiếng Anh 60‑70% có hợp? Dùng “mirror examples” có nên? “Thinking in English, trả lời tiếng Tây Ban Nha” là thực hay chỉ là truyền thuyết? Tips cấu trúc Alpaca‑style? Các bạn đã thành công với LoRA song ngữ chia sẻ nhé! #AI #LLM #QLoRA #Bilingual #CôngNghệ #NgônNgữ

https://www.reddit.com/r/LocalLLaMA/comments/1qijpx3/qlora_finetuning_should_i_t

Эксперимент по подстройке Gemma 3 для вызова процедур

Практический опыт тонкой настройки текстовой генерации для модели Gemma 3 с использованием QLoRA на видеокарте RTX 4090 (24 GB).

https://habr.com/ru/articles/983876/

#QLoRA #LLM #gemma3

Эксперимент по подстройке Gemma 3 для вызова процедур

Мне стало интересно, сколько это займет по времени и какие ресурсы потребует. Модель мультимодальная и довольно большая. Подстройка выполняется только в текстовой части . Далее термины “подстройка”...

Хабр

Fine-tuning Gemma 3 1B với QLoRA 4-bit cho kết quả đầu ra vô nghĩa (ví dụ: MachineMachineMachine...). Đã thử mọi cách: thay đổi rank, định dạng chat, token EOS, bf16 — không hiệu quả. **Giải pháp**: Loại bỏ hoàn toàn lượng tử hóa, dùng float16 cho kết quả tốt. Câu hỏi: Có ai thành công với Gemma 3 1B + QLoRA trên HuggingFace/TRL? Model 1B có quá nhỏ để dùng QLoRA? #Gemma3 #QLoRA #FineTuning #AI #Gemma #HuggingFace #Lora #FineTuning #AI #MachineLearning #TríTuệNhânTạo #HọcMáy #TinhChỉnhMôHình

ht

QTune — open-source решение для быстрого файн-тюнинга моделей

Сегодня я хочу рассказать о своем проекте QTune . Это open-source приложение с графическим интерфейсом, которое превращает сложный и требовательный процесс файнтюнинга в понятный и управляемый процесс, доступный каждому. Это не просто набор скриптов, а полноценная студия, охватывающая весь цикл: от создания датасета до запуска готовой модели локально.

https://habr.com/ru/articles/937866/

#ИИ #Машинное_обучение #ML #AI #finetuning #python #qlora #lora

QTune — open-source решение для быстрого файн-тюнинга моделей

Сегодня я хочу рассказать о своем проекте QTune . Это open-source приложение с графическим интерфейсом, которое превращает сложный и требовательный процесс файнтюнинга в понятный и управляемый...

Хабр
Fully hosted Ollama ✅
Low-cost unlimited LLM usage ✅
RAG codebase and database✅
Learning how to fine-tine 🫠
#ollama #qlora #llm #litellm #ai

От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей

Что такое дообучение LLM и зачем оно нужно? Дообучение больших языковых моделей (LLM) — это способ адаптировать их под свои задачи, сделать их умнее на своих данных и сэкономить ресурсы. Когда стоит дообучать, а когда хватит prompt engineering или RAG? Если задача уникальная или данных много — дообучай. Если задача простая — попробуй сначала промпты.

https://habr.com/ru/articles/925886/

#дообучение #LLM #PEFT #методы #LoRA #QLoRA #AdaLoRA #PTuning #BitFit

От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей

Меня зовут Иван Исаев, я занимаюсь МЛ с 2014 года, руководил направлением МЛ в крупном телекоме, отделом МЛ в крупной RTB компании, последние годы работаю ведущим инженером в блокчейн-компании внутри...

Хабр