Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion

Что делать, если хочешь отредактировать картинку? На фотошоп не хватает знаний, времени или сил. Inpaint-модели подводят. Конструкторы вроде ComfyUI требуют столько всего, что проще уж фотошопу научиться. Как было бы здорово показать картинку нейросети и написать: «Пожалуйста, смени юбку на джинсы. И сзади ещё одну клумбу добавь… И погода пусть солнечной будет!» Увы, как бы ни ломали голову исследователи, задача произвольного нейросетевого редактирования изображений на сегодняшний день в целом не решена. Но пройден нелёгкий путь, и есть заметные достижения, о которых нельзя не рассказать. Мастера фотошопа, оцените!

https://habr.com/ru/companies/sberdevices/articles/903122/

#научные_статьи #научные_исследования #редактирование_изображений #image_editing #разбор_статьи #компьютерное_зрение #генеративные_модели #диффузионные_модели

Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion

Что делать, если хочешь отредактировать картинку? На фотошоп не хватает знаний, времени или сил. Inpaint-модели подводят. Конструкторы вроде ComfyUI требуют столько всего, что проще изучить...

Хабр

Как дообучать огромные модели с максимальным качеством и минимальными затратами? LoRA

paper link hf implementation Для ответа на вопрос в заголовке - погрузимся в статью . Саммари статьи: Обычно LLM-ку предобучают на огромном корпусе, потом адаптируют на down-stream tasks. Если LLM-ка была большая, то мы не всегда можем в full fine-tuning. Авторы статьи предлагают Low-Rank Adaptation (LoRA), который замораживает предобученные веса модели и встраивает "rank decomposition matrices" в каждый слой трансформера, очень сильно понижая кол-во обучаемых параметров для downstream tasks. Compared to GPT-3 175B fine‑tuned with Adam, LoRA can reduce the number of trainable parameters by 10,000 times and the GPU memory requirement by 3 times. LoRA performs on‑par or better than finetuning in model quality on RoBERTa, DeBERTa, GPT-2, and GPT-3, despite having fewer trainable parameters, a higher training throughput, and, unlike adapters, no additional inference latency. Многие NLP-приложения требуют решения разных задач, что зачастую достигается путем дообучения большой модели на несколько разных downstream tasks. Самая важная проблема в классическом fine-tuning'е - новая модель содержит столько же параметров, сколько начальная. Есть работы, где авторы адаптируют только некоторые параметры или обучают внешний модуль для каждой новой задачи. Таким образом, нам необходимо для каждой новой задачи хранить лишь веса, связанные с этой задачей. Однако, имеющиеся методы страдают от: Inference latency ( paper 1 - Parameter-Efficient Transfer Learning for NLP). Reduced model's usable sequence length ( paper 2 - Prefix-Tuning: Optimizing Continuous Prompts for Generation). Часто не достигают бейзлайнов , если сравнивать с "классическим" fine-tuning'ом

https://habr.com/ru/articles/781988/

#машинное_обучение #искусственный_интеллект #llm #nlp_(natural_language_processing) #языковые_модели #обработка_естественного_языка #разбор_статьи

Как дообучать огромные модели с максимальным качеством и минимальными затратами? LoRA

paper link hf implementation Для ответа на вопрос в заголовке - погрузимся в статью . Статья уже была частично разобрана в статье на хабре , я же хочу погрузиться в статью более глубоко. Ближе к...

Хабр