🔧 Đang tinh chỉnh LLaMA 3.1 8B bằng QLoRA, muốn mô hình trò chuyện song ngữ (ES‑EN) có cá tính, hài hước, không dịch máy. Cần lời khuyên: tỉ lệ dữ liệu tiếng Anh 60‑70% có hợp? Dùng “mirror examples” có nên? “Thinking in English, trả lời tiếng Tây Ban Nha” là thực hay chỉ là truyền thuyết? Tips cấu trúc Alpaca‑style? Các bạn đã thành công với LoRA song ngữ chia sẻ nhé! #AI #LLM #QLoRA #Bilingual #CôngNghệ #NgônNgữ

https://www.reddit.com/r/LocalLLaMA/comments/1qijpx3/qlora_finetuning_should_i_t

Akshay (@akshay_pachaar)

LLM(대형언어모델) 커스터마이징을 위해 배우면 좋은 파인튜닝 기법 12가지를 나열한 학습용 목록입니다. 포함된 기법: LoRA, QLoRA, Prefix Tuning, Adapter Tuning, Instruction Tuning, P-Tuning, BitFit, Soft Prompts, RLHF, RLAIF, DPO, GRPO 등으로 실무·연구 시 유용한 기법들을 한눈에 정리한 북마크용 안내입니다.

https://x.com/akshay_pachaar/status/2010408900798062652

#llm #finetuning #lora #qlora #rlhf

Akshay 🚀 (@akshay_pachaar) on X

LLM fine-tuning techniques I'd learn if I were to customize them: Bookmark this. 1. LoRA 2. QLoRA 3. Prefix Tuning 4. Adapter Tuning 5. Instruction Tuning 6. P-Tuning 7. BitFit 8. Soft Prompts 9. RLHF 10. RLAIF 11. DPO (Direct Preference Optimization) 12. GRPO (Group Relative

X (formerly Twitter)

Эксперимент по подстройке Gemma 3 для вызова процедур

Практический опыт тонкой настройки текстовой генерации для модели Gemma 3 с использованием QLoRA на видеокарте RTX 4090 (24 GB).

https://habr.com/ru/articles/983876/

#QLoRA #LLM #gemma3

Эксперимент по подстройке Gemma 3 для вызова процедур

Мне стало интересно, сколько это займет по времени и какие ресурсы потребует. Модель мультимодальная и довольно большая. Подстройка выполняется только в текстовой части . Далее термины “подстройка”...

Хабр

Fine-tuning Gemma 3 1B với QLoRA 4-bit cho kết quả đầu ra vô nghĩa (ví dụ: MachineMachineMachine...). Đã thử mọi cách: thay đổi rank, định dạng chat, token EOS, bf16 — không hiệu quả. **Giải pháp**: Loại bỏ hoàn toàn lượng tử hóa, dùng float16 cho kết quả tốt. Câu hỏi: Có ai thành công với Gemma 3 1B + QLoRA trên HuggingFace/TRL? Model 1B có quá nhỏ để dùng QLoRA? #Gemma3 #QLoRA #FineTuning #AI #Gemma #HuggingFace #Lora #FineTuning #AI #MachineLearning #TríTuệNhânTạo #HọcMáy #TinhChỉnhMôHình

ht

QTune — open-source решение для быстрого файн-тюнинга моделей

Сегодня я хочу рассказать о своем проекте QTune . Это open-source приложение с графическим интерфейсом, которое превращает сложный и требовательный процесс файнтюнинга в понятный и управляемый процесс, доступный каждому. Это не просто набор скриптов, а полноценная студия, охватывающая весь цикл: от создания датасета до запуска готовой модели локально.

https://habr.com/ru/articles/937866/

#ИИ #Машинное_обучение #ML #AI #finetuning #python #qlora #lora

QTune — open-source решение для быстрого файн-тюнинга моделей

Сегодня я хочу рассказать о своем проекте QTune . Это open-source приложение с графическим интерфейсом, которое превращает сложный и требовательный процесс файнтюнинга в понятный и управляемый...

Хабр
Fully hosted Ollama ✅
Low-cost unlimited LLM usage ✅
RAG codebase and database✅
Learning how to fine-tine 🫠
#ollama #qlora #llm #litellm #ai

От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей

Что такое дообучение LLM и зачем оно нужно? Дообучение больших языковых моделей (LLM) — это способ адаптировать их под свои задачи, сделать их умнее на своих данных и сэкономить ресурсы. Когда стоит дообучать, а когда хватит prompt engineering или RAG? Если задача уникальная или данных много — дообучай. Если задача простая — попробуй сначала промпты.

https://habr.com/ru/articles/925886/

#дообучение #LLM #PEFT #методы #LoRA #QLoRA #AdaLoRA #PTuning #BitFit

От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей

Меня зовут Иван Исаев, я занимаюсь МЛ с 2014 года, руководил направлением МЛ в крупном телекоме, отделом МЛ в крупной RTB компании, последние годы работаю ведущим инженером в блокчейн-компании внутри...

Хабр

Квантизация позволяет запускать Llama 3.2 на мобилках

Квантизация помогла портировать последнюю версию LLM Llama 3.2 на мобильные платформы - iOS и Android. Для этого разработчики выпустили квантованные версии Llama 3.2 1B и 3B , которые при тестах на ARM-процессорах показали высокую скорость инференса, по сравнению с несжатыми весами в формате BF16. Как вообще получилось, что Llama работает на мобильных процессорах, ведь для ее запуска нужен определенный программный стек, чаще всего библиотека Pytorch и CUDA на операционной системе Linux? Дело в том, что Meta* ( признана в России экстремистской организацией) используют ExecuTorch - это фреймворк, который является частью Pytorch-платформы и предназначен для запуска Pytorch-программ на мобильных девайсах. ExecuTorch поддерживается фреймворком Llama Stack для запуска моделей Llama, а именно легковесных Llama 3.2 1B и 3B , на iOS и Android. Для разработки мобильных приложений под эти платформы Llama Stack предоставляет клиентский SDK на Swift для iOS и Kotlin для Android, оба написаны под ExecuTorch бэкенд. Какого именно уровня производительности удалось добиться новым квантованным моделям Llama? В среднем это ускорение инференса от двух до четырех раз по сравнению с весами в формате BF16, при сохранении практически сопоставимого качества. Уменьшение размера модели на 56% - что важно для мобильного приложения, чтобы меньше места на телефоне занимало - и уменьшение объема потребляемой памяти на 41% процент. Все это согласно результатам бенчмарков, приведенных на сайте Llama. Сразу стоит отметить важную деталь: речь идет не об обычной post-training квантизации , когда вы берете веса в FP16 и квантуете в GGUF или GPTQ. Хотя такие веса, безусловно, имеют практическое применение для множества задач, они страдают падением качества, это хорошо заметно на бенчмарках ниже.

https://habr.com/ru/articles/856244/

#llama #qlora #llama_32 #генеративные_модели #generative_models #нейронные_сети

Квантизация позволяет запускать Llama 3.2 на мобилках

Квантизация помогла портировать последнюю версию LLM Llama 3.2 на мобильные платформы - iOS и Android. Для этого разработчики выпустили квантованные версии Llama 3.2 1B и 3B , которые при тестах на...

Хабр

[Перевод] Что такое supervised fine-tuning?

Supervised fine-tuning (SFT) — это методика, применяемая для адаптации предварительно обученных Large Language Model (LLM) под конкретную задачу при помощи размеченных данных. В процессе SFT предварительно обученные LLM подвергаются fine-tuning на основе размеченного датасета при помощи методик обучения с учителем. Веса модели выравниваются на основании градиентов, полученных из функции потерь конкретной задачи, измеряющей разность между прогнозами LLM и эталонной разметкой. Этот процесс позволяет модели обучаться паттернам и нюансам конкретной задачи, адаптируя её параметры в соответствии с распределением конкретных данных и требований задачи. SFT, обычно выполняемый после предварительного обучения модели, применяется для того, чтобы научить модель следовать переданным пользователем инструкциям. Он более вычислительно затратен, чем fine-tuning без учителя, но и имеет больше шансов достичь повышенной точности. Объём необходимого дообучения зависит от сложности задачи и размера датасета. В случае простого переноса стиля с использованием моделей OpenAI наподобие GPT-3.5 или GPT-4 для получения превосходных результатов обычно достаточно 30-50 высококачественных примеров. Чтобы преобразовать базовую Large Language Model (LLM) в выполняющую инструкции LLM (например, превратить Mistral в Mistral Instruct), обычно требуется обучение на десятках тысяч примеров. Дообучение Zephyr 7b выполнялось на 16 GPU Nvidia A100 в течение примерно четырёх часов. Это можно считать примером отправной точки для модели с 7 миллиардами параметров.

https://habr.com/ru/articles/829318/

#Машинное_обучение #LLM #finetuning #Трансферное_обучение #LoRA #QLoRA #SFT #Supervised_finetuning #датасет #размета_данных #dataset #данные #data #разметка

Что такое supervised fine-tuning?

Supervised fine-tuning (SFT) — это методика, применяемая для адаптации предварительно обученных Large Language Model (LLM) под конкретную задачу при помощи размеченных данных. В процессе SFT...

Хабр
Reshare: You can now train a 70b language model at home

Luis Quintanilla Personal Website