Sten Rüdiger (@StenRuediger)
arXiv에 새 논문 'MiCA Learns More Knowledge Than LoRA and Full Fine-Tuning'가 공개되었다. 매개변수 효율적 미세조정(PEFT)에서 단순히 저랭크 업데이트 여부보다 어떤 부분공간을 적응시키는지가 더 중요할 수 있다는 점을 제시한다. LoRA 및 full fine-tuning과 비교한 흥미로운 연구 결과다.
Sten Rüdiger (@StenRuediger)
arXiv에 새 논문 'MiCA Learns More Knowledge Than LoRA and Full Fine-Tuning'가 공개되었다. 매개변수 효율적 미세조정(PEFT)에서 단순히 저랭크 업데이트 여부보다 어떤 부분공간을 적응시키는지가 더 중요할 수 있다는 점을 제시한다. LoRA 및 full fine-tuning과 비교한 흥미로운 연구 결과다.
Джентльменский набор LLM-инженера: гайд по экосистеме языковых моделей
Каждый, кто хоть раз вводил pip install transformers , наблюдал, как терминал начинает безостановочно выводить простыню зависимостей: pytorch , accelerate , bitsandbytes , peft и многие, многие другие. Но если PyTorch является фундаментом, настоящим Атлантом, на плечах которого держатся тензорные вычисления, то какую роль играют его помощники? В этой статье мы проведём ревизию джентльменского набора LLM инженера. Для этого мы изучим функционал, методы работы и даже заглянем в исходный код таких библиотек, как PyTorch, Transformers, Accelerate, Bitsandbytes, PEFT и Unsloth. Эти знания позволят вам видеть за списком импортов не просто названия, а четкую структуру, на которой держится ваше приложение.
https://habr.com/ru/articles/984248/
#LLMэкосистема #pytorch #accelerate #transformers #bitsandbytes #peft #unsloth #распределённое_обучение #граф_вычислений #квантование
Tháng 1/2026, một nhà phát triển đã thử nghiệm PEFT trên model qwen3 8b VL để thực hiện trích xuất văn bản có cấu trúc từ hình ảnh. Kết quả validation lớn nhất chỉ đạt 0.4 F1 score. Thay đổi Lora adapter không đẩy độ chính xác cao hơn. Thực nghiệm được dẫn dắt bằng việc hiển thị mô tả để giới hạn kết quả phía ra.
#ML #AI #MachineLearning #PEFT #NLP #ModelTraining #DataScience #AIExperiments #VLModels #HọcMáy #NgônNgữCh করেন #DữLiệu #ThửNhiệmAI
Avi Chawla (@_avichawla)
arXiv에 공개된 무료 115페이지 가이드로, LLM 기초부터 PEFT(LoRA, QLoRA, DoRA, HFT), 정렬 방법(PPO, DPO, GRPO), Mixture of Experts(MoE), 7단계 파인튜닝 파이프라인, 멀티모달 등 LLM 파인튜닝 전반을 종합적으로 설명합니다.
If you're looking for a comprehensive guide to LLM finetuning, check this! a free 115-page book on arxiv, covering: > fundamentals of LLM > peft (lora, qlora, dora, hft) > alignment methods (ppo, dpo, grpo) > mixture of experts (MoE) > 7-stage fine-tuning pipeline > multimodal
От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей
Что такое дообучение LLM и зачем оно нужно? Дообучение больших языковых моделей (LLM) — это способ адаптировать их под свои задачи, сделать их умнее на своих данных и сэкономить ресурсы. Когда стоит дообучать, а когда хватит prompt engineering или RAG? Если задача уникальная или данных много — дообучай. Если задача простая — попробуй сначала промпты.
https://habr.com/ru/articles/925886/
#дообучение #LLM #PEFT #методы #LoRA #QLoRA #AdaLoRA #PTuning #BitFit
Эффективный инференс множества LoRA адаптеров
LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM . Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.
https://habr.com/ru/articles/922290/
#multilora #offline_inference #async_inference #vllm #TensorRTLLM #tensorrt #peft #inference #benchmark #lora
Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам
Современные большие языковые модели впечатляют, но остаются громоздкими и статичными. В ближайшие годы мы перейдём от таких «гигантов» к персональным ИИ-спутникам: компактным и обучаемым на ходу. Ключ к этому — долговременная память (mem-векторы), модульные трансформеры, параметро-эффективное дообучение, внешние базы знаний и жёсткая оптимизация под локальное железо. Разбираем, какие технологии уже работают, какие ещё только вырастают из лабораторий и что ждёт нас завтра. Будущее трансформеров
https://habr.com/ru/articles/906610/
#memвектор #трансформеры #персональный_ИИ #LLM #долговременная_память #модульные_модели #RAG #PEFT #квантизация #агент
What an excellent start to Day 1 of #ALTA2024!
In yesterday's #tutorial, Dr Nicholas I-Hsien Kuo took our participants through:
➡️ Implementing and evaluating #PEFT and quantisation techniques.
➡️ Fine-tuning and deploying #LLMs on hardware with limited resources.
➡️ Optimising workflows for real-world applications without sacrificing performance.
A huge thanks to Google Colab for our #compute requirements 👏
📷 by Taylor Liu, one of our incredible #ALTA2024 Volunteers
🌟 TUTORIAL DETAILS - #LLMs, #LORA and #PEFT 🌟
Join us at #ALTA2024 for a tutorial led by Dr Nicholas I-Hsien Kuo from the UNSW Centre for Big Data Research in Health, #UNSW Sydney.
🌟 What You’ll Gain 🌟
➡️ Implement and evaluate PEFT and quantisation techniques.
➡️ Fine-tune and deploy LLMs on hardware with limited resources.
➡️ Optimise workflows for real-world applications without sacrificing performance.
🌟 Register now! 🌟
https://alta2024.alta.asn.au
Оптимизируем дообучение LLM: теория + гайд
В эпоху стремительного развития искусственного интеллекта большие языковые модели (Large Language Models, LLM) становятся неотъемлемой частью множества приложений – от интеллектуальных чат-ботов до систем анализа данных. Эффективное применение больших языковых моделей не обходится без тонкой настройки, потому что базовые модели, обученные на обобщенных данных, могут не учитывать уникальные особенности конкретных задач или доменов. Тонкая настройка позволяет адаптировать модель к специфическим требованиям приложения, что улучшает ее производительность и точность [1]. Согласно исследованию Brown et al. (2020) о модели GPT-3, тонкая настройка на специализированных наборах данных значительно повышает эффективность модели в узконаправленных задачах, таких как медицинская диагностика или юридический анализ [2]. Однако тонкая настройка может потребовать значительных вычислительных ресурсов, особенно в части использования графических процессоров (GPU). Более того, сами большие языковые модели, запускаемые локально, сделают много боли (дорого!) при покупке мощностей для их эффективной работы [3, 4]. Дальше я расскажу как настроить небольшую LLM (llama-3.2-3b-instruct) так, чтобы снизить требования к оборудованию и ускорить процесс интеграции модели в бизнес-процессы.