Джентльменский набор LLM-инженера: гайд по экосистеме языковых моделей

Каждый, кто хоть раз вводил pip install transformers , наблюдал, как терминал начинает безостановочно выводить простыню зависимостей: pytorch , accelerate , bitsandbytes , peft и многие, многие другие. Но если PyTorch является фундаментом, настоящим Атлантом, на плечах которого держатся тензорные вычисления, то какую роль играют его помощники? В этой статье мы проведём ревизию джентльменского набора LLM инженера. Для этого мы изучим функционал, методы работы и даже заглянем в исходный код таких библиотек, как PyTorch, Transformers, Accelerate, Bitsandbytes, PEFT и Unsloth. Эти знания позволят вам видеть за списком импортов не просто названия, а четкую структуру, на которой держится ваше приложение.

https://habr.com/ru/articles/984248/

#LLMэкосистема #pytorch #accelerate #transformers #bitsandbytes #peft #unsloth #распределённое_обучение #граф_вычислений #квантование

Джентльменский набор LLM-инженера: гайд по экосистеме языковых моделей

Каждый, кто хоть раз вводил pip install transformers , наблюдал, как терминал начинает безостановочно выводить простыню зависимостей: pytorch , accelerate , bitsandbytes , peft и многие, многие...

Хабр

Tháng 1/2026, một nhà phát triển đã thử nghiệm PEFT trên model qwen3 8b VL để thực hiện trích xuất văn bản có cấu trúc từ hình ảnh. Kết quả validation lớn nhất chỉ đạt 0.4 F1 score. Thay đổi Lora adapter không đẩy độ chính xác cao hơn. Thực nghiệm được dẫn dắt bằng việc hiển thị mô tả để giới hạn kết quả phía ra.

#ML #AI #MachineLearning #PEFT #NLP #ModelTraining #DataScience #AIExperiments #VLModels #HọcMáy #NgônNgữCh করেন #DữLiệu #ThửNhiệmAI

https://www.reddit.com/r/LocalLLaMA/comments/1q6

Avi Chawla (@_avichawla)

arXiv에 공개된 무료 115페이지 가이드로, LLM 기초부터 PEFT(LoRA, QLoRA, DoRA, HFT), 정렬 방법(PPO, DPO, GRPO), Mixture of Experts(MoE), 7단계 파인튜닝 파이프라인, 멀티모달 등 LLM 파인튜닝 전반을 종합적으로 설명합니다.

https://x.com/_avichawla/status/2007343266430136697

#llm #finetuning #peft #arxiv

Avi Chawla (@_avichawla) on X

If you're looking for a comprehensive guide to LLM finetuning, check this! a free 115-page book on arxiv, covering: > fundamentals of LLM > peft (lora, qlora, dora, hft) > alignment methods (ppo, dpo, grpo) > mixture of experts (MoE) > 7-stage fine-tuning pipeline > multimodal

X (formerly Twitter)

От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей

Что такое дообучение LLM и зачем оно нужно? Дообучение больших языковых моделей (LLM) — это способ адаптировать их под свои задачи, сделать их умнее на своих данных и сэкономить ресурсы. Когда стоит дообучать, а когда хватит prompt engineering или RAG? Если задача уникальная или данных много — дообучай. Если задача простая — попробуй сначала промпты.

https://habr.com/ru/articles/925886/

#дообучение #LLM #PEFT #методы #LoRA #QLoRA #AdaLoRA #PTuning #BitFit

От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей

Меня зовут Иван Исаев, я занимаюсь МЛ с 2014 года, руководил направлением МЛ в крупном телекоме, отделом МЛ в крупной RTB компании, последние годы работаю ведущим инженером в блокчейн-компании внутри...

Хабр

Эффективный инференс множества LoRA адаптеров

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM . Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.

https://habr.com/ru/articles/922290/

#multilora #offline_inference #async_inference #vllm #TensorRTLLM #tensorrt #peft #inference #benchmark #lora

Эффективный инференс множества LoRA адаптеров

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной...

Хабр

Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам

Современные большие языковые модели впечатляют, но остаются громоздкими и статичными. В ближайшие годы мы перейдём от таких «гигантов» к персональным ИИ-спутникам: компактным и обучаемым на ходу. Ключ к этому — долговременная память (mem-векторы), модульные трансформеры, параметро-эффективное дообучение, внешние базы знаний и жёсткая оптимизация под локальное железо. Разбираем, какие технологии уже работают, какие ещё только вырастают из лабораторий и что ждёт нас завтра. Будущее трансформеров

https://habr.com/ru/articles/906610/

#memвектор #трансформеры #персональный_ИИ #LLM #долговременная_память #модульные_модели #RAG #PEFT #квантизация #агент

Будущее трансформеров: от громоздких моделей к персональным обучаемым агентам

Современные большие языковые модели (LLM) достигли впечатляющих результатов, но остаются громоздкими и статичными. Они требуют огромных вычислительных ресурсов и не умеют самостоятельно запоминать...

Хабр

What an excellent start to Day 1 of #ALTA2024!

In yesterday's #tutorial, Dr Nicholas I-Hsien Kuo took our participants through:

➡️ Implementing and evaluating #PEFT and quantisation techniques.
➡️ Fine-tuning and deploying #LLMs on hardware with limited resources.
➡️ Optimising workflows for real-world applications without sacrificing performance.

A huge thanks to Google Colab for our #compute requirements 👏

📷 by Taylor Liu, one of our incredible #ALTA2024 Volunteers

🌟 TUTORIAL DETAILS - #LLMs, #LORA and #PEFT 🌟

Join us at #ALTA2024 for a tutorial led by Dr Nicholas I-Hsien Kuo from the UNSW Centre for Big Data Research in Health, #UNSW Sydney.

🌟 What You’ll Gain 🌟

➡️ Implement and evaluate PEFT and quantisation techniques.

➡️ Fine-tune and deploy LLMs on hardware with limited resources.

➡️ Optimise workflows for real-world applications without sacrificing performance.

🌟 Register now! 🌟
https://alta2024.alta.asn.au

The 22nd Annual Workshop of the Australasian Language Technology Association

CanberraDecember 2 - 4, 2024

ALTA 2024

Оптимизируем дообучение LLM: теория + гайд

В эпоху стремительного развития искусственного интеллекта большие языковые модели (Large Language Models, LLM) становятся неотъемлемой частью множества приложений – от интеллектуальных чат-ботов до систем анализа данных. Эффективное применение больших языковых моделей не обходится без тонкой настройки, потому что базовые модели, обученные на обобщенных данных, могут не учитывать уникальные особенности конкретных задач или доменов. Тонкая настройка позволяет адаптировать модель к специфическим требованиям приложения, что улучшает ее производительность и точность [1]. Согласно исследованию Brown et al. (2020) о модели GPT-3, тонкая настройка на специализированных наборах данных значительно повышает эффективность модели в узконаправленных задачах, таких как медицинская диагностика или юридический анализ [2]. Однако тонкая настройка может потребовать значительных вычислительных ресурсов, особенно в части использования графических процессоров (GPU). Более того, сами большие языковые модели, запускаемые локально, сделают много боли (дорого!) при покупке мощностей для их эффективной работы [3, 4]. Дальше я расскажу как настроить небольшую LLM (llama-3.2-3b-instruct) так, чтобы снизить требования к оборудованию и ускорить процесс интеграции модели в бизнес-процессы.

https://habr.com/ru/articles/860892/

#PEFT #llm #finetuning #файнтюнинг #гайд

Оптимизируем дообучение LLM: теория + гайд

В эпоху стремительного развития искусственного интеллекта большие языковые модели (Large Language Models, LLM) становятся неотъемлемой частью множества приложений – от интеллектуальных чат-ботов до...

Хабр

Parameter-Efficient Fine-Tuning (PEFT): методы LoRA, Prefix tuning, Prompt tuning и Adapters

На сегодняшний день созданы разные большие языковые модели (LLM), которые показывают превосходные результаты, но для раскрытия их полного потенциала необходимо дообучение для точного решения конкретных задач. Традиционный метод файнтюнинга, при котором настраиваются все параметры предварительно обученной модели, становится непрактичным и вычислительно дорогостоящим при работе с современными моделями LLM. PEFT(Parameter-Efficient Fine-Tuning) представляет собой эффективный подход, позволяющий не терять производительность при тонкой настройке модели, снижая при этом требования к памяти и вычислительным мощностям. В этой статье мы рассмотрим общую концепцию PEFT, его преимущества и основные методы.

https://habr.com/ru/articles/791966/

#llm #finetuning #nlp #prompt_tuning #prefix_tuning #adapters #lora #peft

Parameter-Efficient Fine-Tuning (PEFT): методы LoRA, Prefix tuning, Prompt tuning и Adapters

На сегодняшний день созданы разные большие языковые модели (LLM), которые показывают превосходные результаты, но для раскрытия их полного потенциала необходимо дообучение для точного решения...

Хабр