Mastodawn

Мета-модель для диагностики обучения нейросетей

Когда мы обучаем модели машинного обучения, почти всегда возникает один и тот же вопрос: Что именно происходит во время обучения? Обычно мы смотрим на графики метрик и пытаемся вручную интерпретировать происходящее. Можно посмотреть на learning curves и понять, что происходит: Но этот анализ почти всегда выполняется вручную или с помощью простейших эвристических правил. А ведь сколько времени, сил и нервов можно было бы сэкономить, если обучить до 100 эпохи а не до 500 (см картинка выше) :-( Но можно задать интересный вопрос: А можно ли автоматически определить состояние обучения модели?

https://habr.com/ru/articles/1010556/

#ml #mlops #mlинженер #python #sklearn #random_forest

Мета-модель для диагностики обучения нейросетей

1. Проблема Когда мы обучаем модели машинного обучения, почти всегда возникает один и тот же вопрос: Что именно происходит во время обучения? Обычно мы смотрим на графики метрик и пытаемся вручную...

Хабр

Habr Feb 18

Использование термодинамической помощи случайным лесам для многоклассификационных задач (с кодом Python)

В области объяснимого искусственного интеллекта (Explainable AI, XAI) метод SHAP (SHapley Additive exPlanations), опирающийся на прочную теоретическую базу теории игр, стал ключевым методом оценки важности признаков. Для простых задач классификации сообщество располагает обширной документацией и учебными материалами, что позволяет разработчикам легко создавать графики-водопады (Waterfall Plot) или графики-пчелиный рой (Beeswarm Plot) для объяснения прогнозов модели. Однако при работе с многоклассовой классификацией (Multi-class Classification) применение SHAP претерпевает изменения. Из-за изменения размерности выходных данных прямое использование стандартного кода часто приводит к ошибкам размерности или неверной интерпретации. В данной статье рассматриваются технические трудности применения SHAP в задачах многоклассовой классификации и предлагается проверенное решение для визуализации на Python. Материал основан на новейшем исследовании, опубликованном в 2025 году в журнале Measurement (статья под названием Thermodynamic simulation-assisted random forest: Towards explainable fault diagnosis of combustion chamber components of marine diesel engines ), в котором реализована визуализация объяснимой диагностики неисправностей для многоклассовой задачи (вычисление SHAP для 14 категорий в пяти состояниях неисправности). Адрес репозитория Github

https://habr.com/ru/articles/1000994/

#Искусственный_интеллект #интерпретируемость_ии #random_forest

Использование термодинамической помощи случайным лесам для многоклассификационных задач (с кодом Python)

Метод SHAP (SHapley Additive exPlanations), опирающийся на классическую теорию игр, утвердился в качестве стандарта для оценки значимости признаков в моделях машинного обучения. В задачах бинарной...

Хабр

Habr Oct 9, 2025

Вся суть ансамблей на примере Случайного Леса и Градиентного Бустинга

Изучая классическое машинное обучение, я постоянно натыкался на парадокс: материалов много, а интуитивно понятных объяснений, почему ансамбли — это так мощно, на удивление мало. Я хочу это исправить. В этой статье мы разложим по полочкам саму концепцию ансамблей. А затем по логике ансамблей разберем двух "королей" этого подхода: Случайный Лес и Градиентный Бустинг .

https://habr.com/ru/articles/955110/

#ml #boosting #random_forest #gradient_boosting

Вся суть ансамблей на примере Случайного Леса и Градиентного Бустинга

Введение Изучая классическое машинное обучение, я постоянно натыкался на парадокс: материалов много, а интуитивно понятных объяснений, почему ансамбли — это так мощно, на удивление мало. Я хочу это...

Хабр

Habr Jun 24, 2025

Главное по ML/DL, часть 2: Вопрос → Краткий ответ → Разбор → Пример кода. SVD/PCA. Bias-variance. Деревья. Бустинг

У каждого наступает момент, когда нужно быстро освежить в памяти огромный пласт информации по всему ML. Причины разные - подготовка к собеседованию, начало преподавания или просто найти вдохновение. Времени мало, объема много, цели амбициозные - нужно научиться легко и быстро объяснять , но так же не лишая полноты! 💻 Обращу внимание, самый действенный способ разобраться и запомнить - это своими руками поисследовать задачу ! Это самое важное, оно происходит в секции с кодом. Поэтому попробуйте сами решить предложенную задачку и придумать свою! Будет здорово получить ваши задачи и в следующих выпусках разобрать! Мы продолжаем. Обязательно испытайте себя в предыдущей [1] части! В лес, так в лес!

https://habr.com/ru/articles/921190/

#machinelearning #ds #python #scikitlearn #svd #pca #Biasvariance_tradeoff #random_forest #gradient_boosting #алгоритмы

Главное по ML/DL, часть 2: Вопрос → Краткий ответ → Разбор → Пример кода. SVD/PCA. Bias-variance. Деревья. Бустинг

У каждого наступает момент, когда нужно быстро освежить в памяти огромный пласт информации по всему ML. Причины разные - подготовка к собеседованию, начало преподавания или просто найти вдохновение....

Хабр

Hacker News Apr 24, 2025

Llama 4 Smells Bad
https://fastml.com/llama-4-smells-bad/
#ycombinator #machine_learning #data_analysis #data_science #classification #regression #vowpal_wabbit #spearmint #random_forest #time_series #large_language_models

Llama 4 smells bad - FastML

Meta has distinguished itself positively by releasing three generations of Llama, a semi-open LLM with weights available if you ask nicely (and …

Habr Jul 16, 2024

Бутстрап и доверительные интервалы: от теории к практике на Python

Привет! Бутстрап — мощный статистический метод, позволяющий оценить распределение выборочных статистик. В Data Science бутстрап применяется в большом спектре задач. В статье я постараюсь понятным языком рассказать про особенности, ограничения и сценарии применения бутстрапа, а также я познакомлю вас с различными схемами бутстрапа: Эфронов интервал (простой, но дает смещенную оценку), интервал Холла (несмещенный за счет центрирования) и t-процентильный интервал (несмещенный, шире других, лучшая асимптотика). Более того, в статье мы реализуем функцию бутстрапа на Python и проведем небольшой эксперимент с помощью разных схем бутстрапирования.

https://habr.com/ru/articles/829336/

#бутстрап #доверительный_интервал #статистика #python #ансамблирование_моделей #random_forest #bagging #аналитика #анализ_данных

Бутстрап и доверительные интервалы: от теории к практике на Python

Введение Применение Ограничения Схема бутстрапа Эфронов доверительный интервал Доверительный интервал Холла t-процентильный доверительный интервал Реализация на Python Проблемы Примечания Введение...

Хабр

Habr Apr 2, 2024

Мы так и не смогли защитить свою модель машинного обучения от состязательных атак. Пока

Наша команда разработчиков Исследовательского центра доверенного искусственного интеллекта ИСП РАН первые два года занималась построением сетевой системы обнаружения вторжений, основанной на применении методов машинного обучения. А в последний год мы сменили щит на меч и начали атаковать состязательными атаками (adversarial attacks) синтезированную нами же модель. Задача была простой: оценить устойчивость модели к состязательным атакам. Спойлер: модель не устойчива, а как это исправить — мы пока не знаем. Подробности ниже.

https://habr.com/ru/companies/isp_ras/articles/800751/

#machine_learning #система_обнаружения_вторжений #random_forest #artificial_intelligence #network_security #ids #scikitlearn #обучение_с_учителем

Мы так и не смогли защитить свою модель машинного обучения от состязательных атак. Пока

Наша команда разработчиков Исследовательского центра доверенного искусственного интеллекта ИСП РАН первые два года занималась построением сетевой системы обнаружения вторжений, основанной на...

Хабр

Habr Mar 26, 2024

Классификация экзопланет (часть II построение моделей)

Это вторая и заключительная часть статьи, в которой мы рассматриваем задачу классификации экзопланет. Если предыдущая статья была больше про предобработку данных, то здесь мы будем строить модели, отбирать лучшие и экспериментировать.

https://habr.com/ru/articles/803117/

#машинное_обучение #градиентный_бустинг #нейронные_сети #random_forest #catboost #xgboost #tensorflow #Классификация_Экзопланет

Классификация экзопланет (часть II построение моделей)

Это вторая и заключительная часть статьи, в которой мы рассматриваем задачу классификации экзопланет. Если предыдущая статья была больше про предобработку данных, то здесь мы будем строить модели,...

Хабр

Habr Mar 19, 2024

Бэггинг и случайный лес. Ключевые особенности и реализация с нуля на Python

Далее пойдёт речь про бэггинг и мой самый любимый алгоритм — случайный лес. Не смотря на то, что это одни из самых первых алгоритмов среди семейства ансамблей, они до сих пор пользуются большой популярностью за счёт своей простоты и эффективности, зачастую не уступая бустингам в плане точности. О том, что это такое и как работает, далее в статье.

https://habr.com/ru/articles/801161/

#бэггинг #вставка #случайный_лес #bagging #random_forest #реализация_с_нуля #python #алгоритмы_машинного_обучения #data_science #машинное_обучение

Бэггинг и случайный лес. Ключевые особенности и реализация с нуля на Python

Далее пойдёт речь про бэггинг и мой самый любимый алгоритм — случайный лес. Не смотря на то, что это одни из самых первых алгоритмов среди семейства ансамблей, они до сих пор пользуются большой...

Хабр

Habr Mar 15, 2024

Выжимаем из Random Forest максимум: увеличиваем полноту при 100% точности

Была классическая задача: по табличным данным предсказать некое событие — случится или нет. И как бы я к этим данным ни подбирался, с какого ракурса ни смотрел, результат, увы, не впечатлял. Данных было мало, а то, что было, обладало слабой предсказательной силой. Хотя казалось, что что-то вытащить все-таки можно. И вот, просматривая отдельные деревья решений, меня осенило — попробую-ка я обрезать все деревья, используемые в Random Forest, до одной, но самой эффективной ветки. И — о чудо! — заметно выросла как точность (precision), так и полнота (recall). И особенно полнота выросла на высоких уровнях точности. Проверил этот способ на других задачах. И везде при 100% точности заметно выростала полнота. Что же я сделал?

https://habr.com/ru/articles/800489/

#random_forest #machine_learning

Выжимаем из Random Forest максимум: увеличиваем полноту при 100% точности

Была классическая задача: по табличным данным предсказать некое событие — случится или нет. И как бы я к этим данным ни подбирался, с какого ракурса ни смотрел, результат, увы, не впечатлял. Данных...

Хабр