Как сжимать языковые модели без дообучения

Привет, Хабр! Меня зовут Валентин Малых, я - и.о. руководителя направления фундаментальных исследований в MWS AI. Сегодня я расскажу об одном нашем исследовании по сжатию LLM. Если простыми словами, то это про то, как сделать большую модель чуть-чуть менее требовательной в плане памяти и времени выполнения. Для это придумано три базовых техники: квантизация (загрубление весов модели), дистилляция (обучение уменьшенной копии) и прунинг (удаление части сети). Этот пост как раз будет про третий способ, точнее – недавно разработанный нами в сотрудничестве с зарубежными коллегами метод структурного прунинга по глубине без дообучения, который мы назвали ReplaceMe. Например, модель LLaMA-2 после нашего сжатия на 25% сохраняет 92,5% качества. Ниже – о том, как это работает.

https://habr.com/ru/companies/ru_mts/articles/972368/

#llm #ии #сжатие #прунинг #перплексия #наука #научные_статьи #научные_расчёты #научные_публикации_по_ии

Как сжимать языковые модели без дообучения

Привет, Хабр! Меня зовут Валентин Малых, я исполняю обязанности руководителя направления фундаментальных исследований в MWS AI. Сегодня я расскажу об одном нашем исследовании по сжатию LLM. Если...

Хабр

Прогресс видеокодеков и большое сравнение российских видеосервисов

Год назад на конференции VideoTech ваш покорный слуга сделал большой доклад, в том числе про прогресс современных метрик качества видео (которыми мы довольно плотно занимаемся: тык , тык , тык , тык , тык , тык , тык , тык ). А на открытой дискуссии тем же вечером представитель крупного российского видеосервиса поднялся и высказал всем мнение (своего менеджера): « Измерение качества видео — это лишняя операция . Бизнес — это вообще-то про деньги. Поэтому в бизнесе главное — это бизнес-метрики: user retention , DAU, MAU и вообще ARPU . А все эти ваши PSNR , SSIM , VMAF — от лукавого. Если пользователи платят деньги и не отписываются, значит всех всё устраивает и это главная метрика качества». «И вообще в свое время в Toyota был внедрен подход Lean Manufacturing, где одна из «семи потерь» — это потери из-за лишних этапов обработки (waste on over-processing), к которому, очевидно, относится измерение качества. Эти материи проходят на курсах MBA, которые довольно дороги. Поэтому далеко не все российские технари в теме этих важнейших понятий и не в состоянии осознать их критическую важность для бизнеса компаний». Мне эта позиция (изложенная выше в короче и резче) очень понравилась своей прямотой и кристальной ясностью. Из этой дискуссии родились два сравнения — видеохостингов и онлайн кинотеатров , про которые и будет рассказано ниже. В том числе будет ответ на вопрос, который мне не раз задавали мои знакомые: «Слушай, а почему у меня на даче YouTube через Роскомнадзор работает лучше Rutube без Роскомнадзор ?» (видеоверсия — доклад на VideoTech доступен тут ) Ну-с, господа, «которых всё устраивает ! » Поехали!

https://habr.com/ru/articles/965452/?utm_source=habrahabr&utm_medium=rss&utm_campaign=965452

#наука #исследование #компании #перспективы #видеосервисы #онлайнкинотеатры #сравнения #кодеки #сжатие #китай

Прогресс видеокодеков и большое сравнение российских видеосервисов

Год назад на конференции VideoTech ваш покорный слуга сделал большой доклад, в том числе про прогресс современных метрик качества видео (которыми мы довольно плотно занимаемся: тык , тык , тык , тык ,...

Хабр

Прогресс видеокодеков и большое сравнение российских видеосервисов

Год назад на конференции VideoTech ваш покорный слуга сделал большой доклад, в том числе про прогресс современных метрик качества видео (которыми мы довольно плотно занимаемся: тык , тык , тык , тык , тык , тык , тык , тык ). А на открытой дискуссии тем же вечером представитель крупного российского видеосервиса поднялся и высказал всем мнение (своего менеджера): « Измерение качества видео — это лишняя операция . Бизнес — это вообще-то про деньги. Поэтому в бизнесе главное — это бизнес-метрики: user retention , DAU, MAU и вообще ARPU . А все эти ваши PSNR , SSIM , VMAF — от лукавого. Если пользователи платят деньги и не отписываются, значит всех всё устраивает и это главная метрика качества». «И вообще в свое время в Toyota был внедрен подход Lean Manufacturing, где одна из «семи потерь» — это потери из-за лишних этапов обработки (waste on over-processing), к которому, очевидно, относится измерение качества. Эти материи проходят на курсах MBA, которые довольно дороги. Поэтому далеко не все российские технари в теме этих важнейших понятий и не в состоянии осознать их критическую важность для бизнеса компаний». Мне эта позиция очень понравилась своей прямотой и кристальной ясностью. Из этой дискуссии родились два сравнения — видеохостингов и онлайн кинотеатров , про которые и будет рассказано ниже. В том числе будет ответ на вопрос, который мне не раз задавали мои знакомые: «Слушай, а почему у меня на даче YouTube через Роскомнадзор работает лучше Rutube без Роскомнадзор ?» (видеоверсия — доклад на VideoTech доступен тут ) Ну-с, господа, «которых всё устраивает ! » Поехали!

https://habr.com/ru/articles/965452/

#наука #исследование #компании #перспективы #видеосервисы #онлайнкинотеатры #сравнения #кодеки #сжатие #китай

Прогресс видеокодеков и большое сравнение российских видеосервисов

Год назад на конференции VideoTech ваш покорный слуга сделал большой доклад, в том числе про прогресс современных метрик качества видео (которыми мы довольно плотно занимаемся: тык , тык , тык , тык ,...

Хабр

EvoPress: новый подход к оптимизации и сжатию LLM от исследователей Яндекса

Всем привет! Меня зовут Денис Кузнеделев, я работаю в команде Yandex Research. Моё основное направление деятельности на данный момент — задача сжатия и ускорения больших языковых и картиночных моделей. Затраты на обучение, инференс и деплой LLM стали одной из ключевых инфраструктурных проблем индустрии: дефицит вычислительных ресурсов, нехватка видеопамяти и высокие требования языковых моделей к вычислительным ресурсам препятствуют масштабированию решений. Сегодня я расскажу о методе неравномерного сжатия нейронных сетей EvoPress , который мы предложили совместно с коллегами из ETH Zurich и представили в июле этого года на одной из ведущих конференций по машинному обучению — ICML.

https://habr.com/ru/companies/yandex/articles/957228/

#квантизация #спарсификация #EfficientDL #llm #DL #сжатие #ускорение

EvoPress: новый подход к оптимизации и сжатию LLM от исследователей Яндекса

Всем привет! Меня зовут Денис Кузнеделев, я работаю в команде Yandex Research. Моё основное направление деятельности на данный момент — задача сжатия и ускорения больших языковых и...

Хабр

Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить

Последние несколько месяцев я одержим идеей, которая родилась из простой и, уверен, знакомой многим боли. Тебе на почту падает ссылка на годовой отчет на 300 страниц с комментом "нужно быстро вникнуть". Что ты делаешь? Ищешь сервис, который сделает краткую выжимку. И почти всегда получаешь на выходе мусор. Кашу из вырванных из контекста "ключевых" предложений. Логика потеряна, суть ускользает. Проблема не в том, что эти сервисы плохо сокращают. Проблема в том, что сокращение - это в принципе неверная цель.

https://habr.com/ru/articles/943660/

#суммаризация #сжатие_данных #сжатие #it #itинфраструктура #itобразование #учеба #учебный_процесс #учебный_процесс_в_it #стартап

Большинство AI-суммаризаторов плохо делают саммари. Я решил это починить

Последние несколько месяцев я одержим идеей, которая родилась из простой и, уверен, знакомой многим боли. Тебе на почту падает ссылка на годовой отчет на 300 страниц с комментом "нужно быстро...

Хабр

Как мы ускорили сжатие данных: эксперименты с эвристиками

Хранение 1 ГБ данных в облаке стоит от 2 до 12 рублей. Можно ждать, пока диски подешевеют, а можно сжать данные и получить «бесплатный» апгрейд хранилища. Но если вы храните данные в облаке, сжимать все подряд — как пытаться загрузить стиральную машинку не глядя: льняные брюки могут сесть в 5 раз и освободить место, но если кинуть в барабан кирпич, меньше он не станет, зато вы получите грохот, счет за электричество, недовольных соседей и возможно — сломанную машинку. Чтобы не потратить кучу CPU с сомнительным результатом, мы у себя в команде R&D Узнать больше

https://habr.com/ru/companies/cloud_ru/articles/936666/

#сжатие #компрессия #блочное_хранилище #хранение_данных #оптимизация_хранения #эвристики #cpu #экономия

Как мы ускорили сжатие данных: эксперименты с эвристиками

Хранение 1 ГБ данных в облаке стоит от 2 до 12 рублей. Можно ждать, пока диски подешевеют, а можно сжать данные и получить «бесплатный» апгрейд хранилища. Но если вы храните данные в облаке, сжимать...

Хабр

Меньше — но плотнее.
Я не хочу “больше”. Хочу — точнее.

Меньше людей, но глубже. Меньше слов, но с весом. Меньше движений, но каждый — опорный. Я сокращаю. Очищаю. Уплотняю. Чтобы осталась суть.

#минимализм #точность #сжатие #внимание #выбор

https://t.me/tribute/app?startapp=srfZ
P.S. Made by a madman — Kirill Bereznev
https://t.me/tribute/app?startapp=srfZ

Tribute

Monetize content through donations and subscriptions. News: En — @TributeNewsEN Ru — @TributeNewsRU

Telegram

#WebP #котики #котэ #алгоритмы #сжатие #ФорматыФайлов #тест

WebP

Для тех, кому пока непонятно, зачем нужен этот ваш WebP. Типичный пример типичного скриншота: текст+картинка+много однородного фона.

  • PNG → 1,47 Мб
  • WebP → 128 Кб (lossy)
  • JPEG → 187 Кб

По второй картинке можно оценить, насколько мало артефактов привносит WebP при большем, чем у JPEG, сжатии (и более чем в 10 раз относительно PNG!).

Вторая картинка, есличо, занимает 97 килобайт в WebP lossless, при 207 и 205 в PNG / JPEG 🙂

Кроме размера (бе-е-е-е, интернеты быстрые, зачем экономить килоба-а-а-йт) большой плюс формата — поддержка прозрачности при обоих вариантах сжатия (с потерями и без). И даже анимация есть.

Поддержка реализована во всех браузерах старше 2020 года, просмотрщики и редакторы тоже умеют искаропки, ну или надо плагин/либу поставить. Даже Paint в #Windows10 — могёт 🙂

А еще он попенсорцный и одобрен котиками 🐱

@darkcat09 @ru
#music #сжатие #кодеки #аудиофилия

Хм... Судя по тестам — #Opus действительно лидер. А я, блин, по старинке в #Vorbis кодирую... И это на 192 килобитах, при том, что ему можно и > 320 выставить.

https://audiocoding.cc/articles/2019-06-24-best-lossy-codecs-june-2019/diff.svg

RE: https://gts.dc09.ru/@darkcat09/statuses/01JF9F50JSPMMD5SMJZ04DEHVM

Для расширенного технического обсуждения на *LOR* можно представить так:
---
### Каталоги на Бастионе: проблема навигации
**Суть проблемы:** Бастион наполнен разнообразным контентом, но отсутствует удобная структура для поиска и сохранения публикаций. Основная идея, поддерживаемая пользователями, — это добавление каталогов, которые будут отображать весь контент профиля в структурированном формате.
**Предложение:** Каталоги могут стать отдельной вкладкой (рядом с «Аудио», «Видео»), где пользователи смогут организовывать свой контент в группы и разделы. Такая вкладка позволит добавлять ссылки и заголовки, создавать списки (до нескольких сотен строк) и свободно сортировать их по группам. Это решит проблему поиска и навигации по крупным аккаунтам.
### Обработка медиа на Бастионе: ограничения и потери качества
**Сжатие и конвертация:** Весь загружаемый медиа-контент (видео и аудио) преобразуется на платформе в mp4 с жестким ограничением качества. Загрузка возможна для всех репутаций, но её объём ограничен (например, 1,86 Гб/сут для репутации 100+). Платформа ограничивает разрешение видео до 480p (для блогеров с высокой репутацией — до 720p). Подобные параметры делают загрузку качественного контента бессмысленной, поскольку он неизбежно подвергается сильной компрессии.
**Аудио:** Несмотря на добавление вкладки для аудио, ожидания качества не оправдались. Все аудио конвертируется в mp4, даже если загружено в mp3, и максимальное качество сжатия для звука — 256 кбит/с (AAC). В итоге потери качества высоки и для аудио, и для видео.
### Баги со ссылками на аудио
Обнаружена проблема с воспроизведением аудио через ссылки на посты. При использовании типа ссылки "post" аудиотрек открывается, но воспроизведение не запускается корректно. Ссылки типа "ник" и "index" работают без сбоев, что позволяет избежать проблемы.
### Прочие баги и недоработки
1. При открытии внешней ссылки на контент звук всегда отключён — пользователю приходится вручную нажимать кнопку Unmute.
2. После завершения воспроизведения плеер не отключается, а продолжает имитировать загрузку.
3. Раздел «Моя активность» стоило бы вернуть в «Управление», откуда он был удалён ранее.
**Заключение:** Основные замечания обращены к разработчикам Бастиона, чтобы сделать контент-платформу более ориентированной на пользователей и учесть популярные запросы, такие как структурированные каталоги и улучшенное качество медиа.

Исходник:

https://bastyon.com/kolibristudio?s=e18e591b27a536bdb1ccac7534049e04c5b64c304e5f153c6b331f2550481ff0&ref=PPuoSzXpSnY1Q4w1MLeVdLcbaUpVDCwpBp

Matrix https://matrix.to/#/!HdSCQbJtfHHCalgemp:matrix.org/$97y59PmWyoO4z-GeJwJ73FiRUZa_bGIT9kOzpLQAWA0?via=matrix.org&via=matrix.kyiv.dcomm.net.ua

Вот теги для упомянутого технического обсуждения:
#Бастион #каталоги #навигация #медиаконтент #сжатие #mp4 #битрейт #PeerTube #аудио #воспроизведение #Unmute #конвертация #репутация #глюки #ссылки

KolibriStudio

🔦📡🔌💡 Для расширенного технического обсуждения на *LOR* можно предст...

Bastyon