Title: P4: FOSDEM 2024 offline [2024-02-09 Fri]
trainable parameters. Low-rank subspace finetuning. Part of the model's input embeddings is fine-tuned via gradient descent.
- Fastfood transform to reparametrize the update to NN params.
- LoRa - simple low-rank matrix decomposition(or Kronecker product decomposition) to parametrize the weight
update
😶 #dailyreplort #llm #ai #architect #architecture #peft
Title: P2: P3: FOSDEM 2024 offline [2024-02-09 Fri]
- soft prompts - consists of a task description accompanied by a few in-context examples
- *selective* - fine-tuning only selected layers/biases/rows
- *reparametrization-based* (kind of additive) - leverage low-rank representations to minim the number of #dailyreplort #llm #ai #architect #architecture #peft
Title: P1: P3: FOSDEM 2024 offline [2024-02-09 Fri]
- prompt tuning or modifications - hard or soft or prefix tuning (as LLaMa adapter) - appends a tensor to
the embedded inputs of a pretrained LLM #dailyreplort #llm #ai #architect #architecture #peft

Title: P2: FOSDEM 2024 offline [2024-02-09 Fri]
https://www.geeksforgeeks.org/difference-between-access-control-list-and-capability-list/

LLM model size increasing 2-5 times order of magnitude quicker than
single GPU RAM do.

Types of PEFT methods (from my notes):
- *additive* - augmenting the existing pre-trained model with extra parameters or layers and training only the
newly added
- adapters - add additional parameters to each transformer block. #dailyreplort #llm #ai #architect #architecture #peft

Difference Between Access Control List and Capability List - GeeksforGeeks

Your All-in-One Learning Portal: GeeksforGeeks is a comprehensive educational platform that empowers learners across domains-spanning computer science and programming, school education, upskilling, commerce, software tools, competitive exams, and more.

GeeksforGeeks
Title: P1: FOSDEM 2024 offline [2024-02-09 Fri]
- Adapters as a PEFT for LLM finetuting
2019 https://arxiv.org/pdf/1902.00751.pdf
- An overview of PEFT methods 2023
https://arxiv.org/abs/2303.15647
- Architectures:
- Clean Architecture and MVI in Android
- Principles of access control: Least Privilege,
Separation of Duties, Need to know.
- difference between Linux ACL and Capabilities #dailyreplort #llm #ai #architect #architecture #peft
Title: P0: FOSDEM 2024 offline [2024-02-09 Fri]
I have been reading FOSDEM2024 speches, science articles and
architecture patterns:
- FOSDEM2024 speaches about Transformer architecture of LLMs and
finetuning of large NN: https://fosdem.org/2024/ AI and Machine
Learning devroom:
- LangChain - orchistration framework for LLM training
- NN pretrained adapters - advanced submodels as layers.
- science articles: #dailyreplort #llm #ai #architect #architecture #peft
FOSDEM 2024 - Home

Джентльменский набор LLM-инженера: гайд по экосистеме языковых моделей

Каждый, кто хоть раз вводил pip install transformers , наблюдал, как терминал начинает безостановочно выводить простыню зависимостей: pytorch , accelerate , bitsandbytes , peft и многие, многие другие. Но если PyTorch является фундаментом, настоящим Атлантом, на плечах которого держатся тензорные вычисления, то какую роль играют его помощники? В этой статье мы проведём ревизию джентльменского набора LLM инженера. Для этого мы изучим функционал, методы работы и даже заглянем в исходный код таких библиотек, как PyTorch, Transformers, Accelerate, Bitsandbytes, PEFT и Unsloth. Эти знания позволят вам видеть за списком импортов не просто названия, а четкую структуру, на которой держится ваше приложение.

https://habr.com/ru/articles/984248/

#LLMэкосистема #pytorch #accelerate #transformers #bitsandbytes #peft #unsloth #распределённое_обучение #граф_вычислений #квантование

Джентльменский набор LLM-инженера: гайд по экосистеме языковых моделей

Каждый, кто хоть раз вводил pip install transformers , наблюдал, как терминал начинает безостановочно выводить простыню зависимостей: pytorch , accelerate , bitsandbytes , peft и многие, многие...

Хабр

Tháng 1/2026, một nhà phát triển đã thử nghiệm PEFT trên model qwen3 8b VL để thực hiện trích xuất văn bản có cấu trúc từ hình ảnh. Kết quả validation lớn nhất chỉ đạt 0.4 F1 score. Thay đổi Lora adapter không đẩy độ chính xác cao hơn. Thực nghiệm được dẫn dắt bằng việc hiển thị mô tả để giới hạn kết quả phía ra.

#ML #AI #MachineLearning #PEFT #NLP #ModelTraining #DataScience #AIExperiments #VLModels #HọcMáy #NgônNgữCh করেন #DữLiệu #ThửNhiệmAI

https://www.reddit.com/r/LocalLLaMA/comments/1q6

От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей

Что такое дообучение LLM и зачем оно нужно? Дообучение больших языковых моделей (LLM) — это способ адаптировать их под свои задачи, сделать их умнее на своих данных и сэкономить ресурсы. Когда стоит дообучать, а когда хватит prompt engineering или RAG? Если задача уникальная или данных много — дообучай. Если задача простая — попробуй сначала промпты.

https://habr.com/ru/articles/925886/

#дообучение #LLM #PEFT #методы #LoRA #QLoRA #AdaLoRA #PTuning #BitFit

От понимания файнтюнинга LLM до файнтюнинга мультимодальных моделей

Меня зовут Иван Исаев, я занимаюсь МЛ с 2014 года, руководил направлением МЛ в крупном телекоме, отделом МЛ в крупной RTB компании, последние годы работаю ведущим инженером в блокчейн-компании внутри...

Хабр

Эффективный инференс множества LoRA адаптеров

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера. MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели. В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM . Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу.

https://habr.com/ru/articles/922290/

#multilora #offline_inference #async_inference #vllm #TensorRTLLM #tensorrt #peft #inference #benchmark #lora

Эффективный инференс множества LoRA адаптеров

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной...

Хабр