BijanBowen (@Ominousind)
Anthropic의 모델을 대상으로 한 새로운 지식 증류(distillation) 공격 데모가 공개되었다. GPT-5.2를 교사 모델로 사용하고, Llama 3B 모델에 QLoRA를 적용하여 50개의 출력만으로도 큰 성능 전이가 이루어졌음을 보여주었다. 이는 대형 언어 모델(LLM)의 지식을 소형 모델로 이전하는 혁신적 방법으로, 모델 복제 및 보안 측면에서 중요한 연구 시사점을 제공한다.
BijanBowen (@Ominousind)
Anthropic의 모델을 대상으로 한 새로운 지식 증류(distillation) 공격 데모가 공개되었다. GPT-5.2를 교사 모델로 사용하고, Llama 3B 모델에 QLoRA를 적용하여 50개의 출력만으로도 큰 성능 전이가 이루어졌음을 보여주었다. 이는 대형 언어 모델(LLM)의 지식을 소형 모델로 이전하는 혁신적 방법으로, 모델 복제 및 보안 측면에서 중요한 연구 시사점을 제공한다.
От RLHF к DPO и дальше: как мы разучились бояться и полюбили выравнивание LLM
В 2022 году существовал ровно один способ сделать языковую модель «хорошей» — RLHF. Один. Если вы хотели, чтобы ваша LLM отвечала адекватно и хотя бы делала вид, что понимает вопрос, — вам нужны были армия аннотаторов и бюджет уровня OpenAI. Четыре года спустя у нас зоопарк из десятка методов выравнивания, половину из которых можно запустить на одной RTX 4090 за выходные. DPO убрал reward model. SimPO убрал reference model. GRPO и DeepSeek R1 доказали, что RL жив — но в новой форме. Anthropic опубликовала конституцию Claude на ~80 страниц в открытом доступе и сменила парадигму: от правил к причинам. Мир изменился. Разбираемся, как именно. В статье — полная история пост-обучения от RLHF до Constitutional AI, математика ключевых методов (в спойлерах, без боли), рабочий код на TRL + QLoRA с гиперпараметрами, большие сравнительные таблицы и дерево решений «что выбрать для вашей задачи». Плюс честный разговор о проблемах, о которых не пишут в туториалах: distribution mismatch, reward hacking, catastrophic forgetting и почему модели умеют «притворяться» выровненными. Для разработчиков, ML-инженеров и всех, кто хоть раз открывал Hugging Face и думал: «а что если я это fine-tune...»
https://habr.com/ru/articles/1002298/
#LLM #RLHF #DPO #finetuning #выравнивание #LoRA #QLoRA #GRPO #Constitutional_AI #языковые_модели
🔧 Đang tinh chỉnh LLaMA 3.1 8B bằng QLoRA, muốn mô hình trò chuyện song ngữ (ES‑EN) có cá tính, hài hước, không dịch máy. Cần lời khuyên: tỉ lệ dữ liệu tiếng Anh 60‑70% có hợp? Dùng “mirror examples” có nên? “Thinking in English, trả lời tiếng Tây Ban Nha” là thực hay chỉ là truyền thuyết? Tips cấu trúc Alpaca‑style? Các bạn đã thành công với LoRA song ngữ chia sẻ nhé! #AI #LLM #QLoRA #Bilingual #CôngNghệ #NgônNgữ
https://www.reddit.com/r/LocalLLaMA/comments/1qijpx3/qlora_finetuning_should_i_t
Akshay (@akshay_pachaar)
LLM(대형언어모델) 커스터마이징을 위해 배우면 좋은 파인튜닝 기법 12가지를 나열한 학습용 목록입니다. 포함된 기법: LoRA, QLoRA, Prefix Tuning, Adapter Tuning, Instruction Tuning, P-Tuning, BitFit, Soft Prompts, RLHF, RLAIF, DPO, GRPO 등으로 실무·연구 시 유용한 기법들을 한눈에 정리한 북마크용 안내입니다.
LLM fine-tuning techniques I'd learn if I were to customize them: Bookmark this. 1. LoRA 2. QLoRA 3. Prefix Tuning 4. Adapter Tuning 5. Instruction Tuning 6. P-Tuning 7. BitFit 8. Soft Prompts 9. RLHF 10. RLAIF 11. DPO (Direct Preference Optimization) 12. GRPO (Group Relative
Эксперимент по подстройке Gemma 3 для вызова процедур
Практический опыт тонкой настройки текстовой генерации для модели Gemma 3 с использованием QLoRA на видеокарте RTX 4090 (24 GB).
Fine-tuning Gemma 3 1B với QLoRA 4-bit cho kết quả đầu ra vô nghĩa (ví dụ: MachineMachineMachine...). Đã thử mọi cách: thay đổi rank, định dạng chat, token EOS, bf16 — không hiệu quả. **Giải pháp**: Loại bỏ hoàn toàn lượng tử hóa, dùng float16 cho kết quả tốt. Câu hỏi: Có ai thành công với Gemma 3 1B + QLoRA trên HuggingFace/TRL? Model 1B có quá nhỏ để dùng QLoRA? #Gemma3 #QLoRA #FineTuning #AI #Gemma #HuggingFace #Lora #FineTuning #AI #MachineLearning #TríTuệNhânTạo #HọcMáy #TinhChỉnhMôHình
ht
QTune — open-source решение для быстрого файн-тюнинга моделей
Сегодня я хочу рассказать о своем проекте QTune . Это open-source приложение с графическим интерфейсом, которое превращает сложный и требовательный процесс файнтюнинга в понятный и управляемый процесс, доступный каждому. Это не просто набор скриптов, а полноценная студия, охватывающая весь цикл: от создания датасета до запуска готовой модели локально.
https://habr.com/ru/articles/937866/
#ИИ #Машинное_обучение #ML #AI #finetuning #python #qlora #lora
От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей
Что такое дообучение LLM и зачем оно нужно? Дообучение больших языковых моделей (LLM) — это способ адаптировать их под свои задачи, сделать их умнее на своих данных и сэкономить ресурсы. Когда стоит дообучать, а когда хватит prompt engineering или RAG? Если задача уникальная или данных много — дообучай. Если задача простая — попробуй сначала промпты.
https://habr.com/ru/articles/925886/
#дообучение #LLM #PEFT #методы #LoRA #QLoRA #AdaLoRA #PTuning #BitFit
Квантизация позволяет запускать Llama 3.2 на мобилках
Квантизация помогла портировать последнюю версию LLM Llama 3.2 на мобильные платформы - iOS и Android. Для этого разработчики выпустили квантованные версии Llama 3.2 1B и 3B , которые при тестах на ARM-процессорах показали высокую скорость инференса, по сравнению с несжатыми весами в формате BF16. Как вообще получилось, что Llama работает на мобильных процессорах, ведь для ее запуска нужен определенный программный стек, чаще всего библиотека Pytorch и CUDA на операционной системе Linux? Дело в том, что Meta* ( признана в России экстремистской организацией) используют ExecuTorch - это фреймворк, который является частью Pytorch-платформы и предназначен для запуска Pytorch-программ на мобильных девайсах. ExecuTorch поддерживается фреймворком Llama Stack для запуска моделей Llama, а именно легковесных Llama 3.2 1B и 3B , на iOS и Android. Для разработки мобильных приложений под эти платформы Llama Stack предоставляет клиентский SDK на Swift для iOS и Kotlin для Android, оба написаны под ExecuTorch бэкенд. Какого именно уровня производительности удалось добиться новым квантованным моделям Llama? В среднем это ускорение инференса от двух до четырех раз по сравнению с весами в формате BF16, при сохранении практически сопоставимого качества. Уменьшение размера модели на 56% - что важно для мобильного приложения, чтобы меньше места на телефоне занимало - и уменьшение объема потребляемой памяти на 41% процент. Все это согласно результатам бенчмарков, приведенных на сайте Llama. Сразу стоит отметить важную деталь: речь идет не об обычной post-training квантизации , когда вы берете веса в FP16 и квантуете в GGUF или GPTQ. Хотя такие веса, безусловно, имеют практическое применение для множества задач, они страдают падением качества, это хорошо заметно на бенчмарках ниже.
https://habr.com/ru/articles/856244/
#llama #qlora #llama_32 #генеративные_модели #generative_models #нейронные_сети