Как сжимать языковые модели без дообучения

Привет, Хабр! Меня зовут Валентин Малых, я - и.о. руководителя направления фундаментальных исследований в MWS AI. Сегодня я расскажу об одном нашем исследовании по сжатию LLM. Если простыми словами, то это про то, как сделать большую модель чуть-чуть менее требовательной в плане памяти и времени выполнения. Для это придумано три базовых техники: квантизация (загрубление весов модели), дистилляция (обучение уменьшенной копии) и прунинг (удаление части сети). Этот пост как раз будет про третий способ, точнее – недавно разработанный нами в сотрудничестве с зарубежными коллегами метод структурного прунинга по глубине без дообучения, который мы назвали ReplaceMe. Например, модель LLaMA-2 после нашего сжатия на 25% сохраняет 92,5% качества. Ниже – о том, как это работает.

https://habr.com/ru/companies/ru_mts/articles/972368/

#llm #ии #сжатие #прунинг #перплексия #наука #научные_статьи #научные_расчёты #научные_публикации_по_ии

Как сжимать языковые модели без дообучения

Привет, Хабр! Меня зовут Валентин Малых, я исполняю обязанности руководителя направления фундаментальных исследований в MWS AI. Сегодня я расскажу об одном нашем исследовании по сжатию LLM. Если...

Хабр

Дайджест препринтов научных статей в области астрофизики за октябрь 2025 года

Выпуск 449 Открыта интересная планета с рекордными характеристиками. Открыта методом транзитов, но потом удалось измерить вариацию лучевой скорости звезды и детально изучить саму звезду и особенности транзитов. Итак, планета имеет орбитальный период 105 дней и массу менее 30 земных. Пекулярны две характеристики. Во-первых, орбита полярная, т.е. ее наклон к экватору звезды почти 90 градусов. Во-вторых, планета имеет очень низкую среднюю плотность (менее 0.3 от плотности воды). Т.е., она "раздутая" - радиус определяется очень протяженной атмосферой. Это необычно для планет, находящихся так далеко от звезды. Объяснение этого, скорее всего, связано с составом: очень большая (для такой массы, это ведь не гигант!) доля водорода и гелия. Также отметим относительную молодость планеты. Возраст оценивается не очень точно: от 200 миллионов до 1.5 миллиарда лет. Ожидается, что будущие наблюдения на JWST помогут определить состав атмосферы и лучше разобраться в физике этого необычного объекта.

https://habr.com/ru/articles/964638/

#астрофизика #физика #математика #научнопопулярное #научпоп #научные_исследования #научные_статьи #ии #обработка_данных

Дайджест препринтов научных статей в области астрофизики за октябрь 2025 года

Подборка свежих научных публикаций в области астрофизики от профессора МГУ Сергея Попова. Основано на выборке интересных научных статей из библиотеки препринтов  arxiv.org . Публикуется с...

Хабр

Дайджест препринтов научных статей в области астрофизики за январь 2025 года

Знакомьтесь, Пауки-охотники - это новый тип двойных систем с миллисекундными пульсарами. Давным-давно системы, в которых миллисекундный пульсар испаряет компаньона, назвали "черная вдова" в честь соответствующего вида пауков, где самка убивает самца после того самого действия (о чем вы подумали, - прим. ред). Когда в дальнейшем обнаруживали новые подтипы миллисекундных пульсаров в двойных, где взаимодействие пульсара и его компаньона проходит немного иначе - они получали имена в честь других пауков. (Тут существенно, что пульсары часто открывают в Австралии, где и радиоастрономия развита великолепно, и всяких пауков много). И вот - еще один паучара. На этот раз компаньоном является ободранный красный гигант. В статье описан всего лишь второй надежный пример такой системы (есть еще один хороший кандидат, так что можно сказать, что известных систем уже три, но одна недоизученна. Поскольку системы с красными гигантами более широкие, то их решили назвать в честь более крупных пауков. Период радиопульсара примерно две миллисекунды, а орбитальный период - более 10 дней. Наблюдается рентгеновское излучение, связанное с взаимодействием ветров от красного гиганта и радиопульсара. Вообще, систему удалось хорошо исследовать в разных диаразонах: определить расстояние, измерить спекты и тп. Открытие и изучение таких систем важно для лучшего понимания эволюции двойных систем и нейтронных звезд в двойных, поскольку системы с красными гигантами представляют относительно короткую промежуточную стадию

https://habr.com/ru/articles/960628/

#математика #физика #астрономия #астрофизика #научнопопулярное #наука #научпоп #научные_статьи

Дайджест препринтов научных статей в области астрофизики за январь 2025 года

Ежемесячный обзор научных статей в области астрофизики от профессора МГУ Сергея Попова, основанный на выборке интересных публикаций из библиотеки препринтов  arxiv.org . Публикуется с разрешения...

Хабр

[Перевод] Дракончик учится летать: Brain-like Dragon Hatchling простыми словами

Искусственные нейросети научились распознавать лица и писать тексты, но до сих пор не умеют учиться на лету. Что если создать ИИ, который адаптируется к новому опыту прямо во время работы — как живое существо? Менее месяца назад несколько инженеров и ученых выпустили научную статью по машинному обучению и нейросетям, предложив интересные идеи для изменения существующих архитектур. А говоря проще, они предложили новую архитектуру искусственной нейронной сети.

https://habr.com/ru/articles/957760/

#AI #нейросети #нейронные_сети #искусственный_интеллект #машинное_обучение #научные_статьи #научнопопулярное #rust

Дракончик учится летать: Brain-like Dragon Hatchling простыми словами

Фото на обложке Kira Cherkavskaya on Unsplash Искусственные нейросети научились распознавать лица и писать тексты, но до сих пор не умеют учиться на лету. Что если создать ИИ, который адаптируется к...

Хабр

Научный «дипфейк»? Как галлюцинации нейросетей — и другие проблемы — просачиваются в академические статьи

Нейронки периодически оказывают пользователям медвежью услугу и уверенно (инфа сотка!) выдают в ответ на запрос правдоподобные фейки. Если речь идет о журнальных статьях на тему «что почитать этим летом», получается веселый конфуз. Совсем другое дело — если «срезать углы» с помощью нейросети хочет юрист, ученый или эксперт, пишущий книгу в жанре технической литературы. Мы в

https://habr.com/ru/companies/beeline_cloud/articles/946636/

#beeline_cloud #научные_исследования #академические_работы #научные_статьи #нейросети

Научный «дипфейк»? Как галлюцинации нейросетей — и другие проблемы — просачиваются в академические статьи

Нейронки периодически оказывают пользователям медвежью услугу и уверенно (инфа сотка!) выдают в ответ на запрос правдоподобные фейки. Если речь идет о журнальных статьях на тему «что почитать этим...

Хабр

Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion

Что делать, если хочешь отредактировать картинку? На фотошоп не хватает знаний, времени или сил. Inpaint-модели подводят. Конструкторы вроде ComfyUI требуют столько всего, что проще уж фотошопу научиться. Как было бы здорово показать картинку нейросети и написать: «Пожалуйста, смени юбку на джинсы. И сзади ещё одну клумбу добавь… И погода пусть солнечной будет!» Увы, как бы ни ломали голову исследователи, задача произвольного нейросетевого редактирования изображений на сегодняшний день в целом не решена. Но пройден нелёгкий путь, и есть заметные достижения, о которых нельзя не рассказать. Мастера фотошопа, оцените!

https://habr.com/ru/companies/sberdevices/articles/903122/

#научные_статьи #научные_исследования #редактирование_изображений #image_editing #разбор_статьи #компьютерное_зрение #генеративные_модели #диффузионные_модели

Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion

Что делать, если хочешь отредактировать картинку? На фотошоп не хватает знаний, времени или сил. Inpaint-модели подводят. Конструкторы вроде ComfyUI требуют столько всего, что проще изучить...

Хабр

Как я за год написал шесть больших научных статей и несколько маленьких

Без «литературных негров» и чатГПТ — личный рассказ об инструментах, технологиях и приёмах, которые помогли мне не вылететь из аспирантуры и догнать коллег. Открытые данные, Python, R, RMarkdown, Quarto, git и немного ИИ в помощь исследователю.

https://habr.com/ru/articles/898038/

#научные_исследования #научная_работа #научные_статьи #открытые_данные #публикации #rmarkdown #deepl #rstudio #git #r_lang

Как я за год написал шесть больших научных статей и несколько маленьких

С 2021 года я учусь в аспирантуре по экономической географии . Чтобы защитить кандидатскую диссертацию, надо опубликовать хотя бы две качественные научные статьи, а лучше — больше. Желательно также...

Хабр

[Перевод] Возможно гравитоны всё-таки удастся обнаружить

Друзья, всем привет! Нашел интереснейшую статью о поисках гравитона и тех научно-философских последствиях, которые повлечет за собой его обнаружение. Оригинал здесь . Постарался сделать качественный и понятный для русскоязычного читателя перевод без характерных для английского языка, но непривычных у нас оборотов. Надеюсь на продуктивную дискуссию в комментариях! Приятного чтения! Возможно, обнаружить частицу гравитации окажется гораздо проще, чем считалось ранее. Теперь физики лишь спорят о том, что обнаружение гравитона будет означать для нас на самом деле. Эксперимент, в результате которого будет обнаружен гравитон — гипотетическая частица, которая, как полагают, переносит силу гравитации — станет судьбоносным. Однако до сих пор считалось, что это невозможно. Согласно одной печально известной оценке, аппарат размером с Землю, вращающийся вокруг Солнца, может улавливать один гравитон каждые миллиард лет. Чтобы поймать один гравитон за десятилетие, согласно этому расчёту , нам пришлось бы припарковать машину размером с Юпитер рядом с нейтронной звездой. Короче говоря: этого не произойдет. Однако вероятно это общепринятое мнение скоро кардинально изменится. Соединив современное понимание гравитационных волн (что по сути является рябью пространственно-временного континуума) с достижениями в области квантовых технологий, группа физиков разработала новый способ обнаружения гравитона — или, по крайней мере, квантового события, тесно связанного с гравитоном. Предлагаемый ими эксперимент все равно требует титанических усилий, но он, по-крайней мере, возможен в реальности.

https://habr.com/ru/articles/900092/

#физика #наука #научнопопулярное #научпоп #научные_статьи #научные_исследования #научная_работа #гравитация #гравитационные_волны #ученые

Возможно гравитоны всё-таки удастся обнаружить

Захват гравитона был бы подобен обнаружению всего лишь одной молекулы в океанской волне. Друзья, всем привет! Нашел интереснейшую статью о поисках гравитона и тех научно-философских последствиях,...

Хабр

[Перевод] Первое обнаружение нейтрино сверхвысокой энергии

Два года назад в мире физики произошло выдающееся событие, о котором ученые рассказали только сейчас. Недавно, 12  февраля 2025  года международное научное сообщество нейтринного телескопа KM3NeT опубликовало в журнале Nature подробности удивительного открытия.

https://habr.com/ru/companies/selectel/articles/888094/

#selectel #нейтрино #научные_исследования #научные_статьи #научные_публикации #физика #физика_элементарных_частиц #вселенная #космология

Первое обнаружение нейтрино сверхвысокой энергии

Два года назад в мире физики произошло выдающееся событие, о котором ученые рассказали только сейчас. Недавно, 12  февраля 2025  года международное научное сообщество нейтринного телескопа KM3NeT...

Хабр

Related Works в научной статье и диссертации. Зачем и как искать материалы

В этой статье моей целью было дать краткий обзор интернет-ресурсов, которые могут помочь вам в поиске научных публикаций и их анализе. Перед обзором самих методов я также кратко излагаю, зачем нужен раздел Related Works и в чем его особенность в научных публикациях и диссертациях.

https://habr.com/ru/articles/888082/

#научные_статьи #научный_метод #Related_Works #аналитический_обзор #наука_и_исследования #чатботы #поисковые_технологии

Related Works в научной статье и диссертации. Зачем и как искать материалы

В этой статье моей целью было дать краткий обзор интернет-ресурсов, которые могут помочь вам в поиске научных публикаций и их анализе. Перед обзором самих методов я также кратко излагаю, зачем нужен...

Хабр