Линейная регрессия. Основная идея, модификации и реализация с нуля на Python

В машинном и глубоком обучении линейная регрессия занимает особое место, являясь не просто статистическим инструментом, но а также фундаментальным компонентом для многих более сложных концепций. В данной статье рассмотрен не только принцип работы линейной регрессии с реализацией с нуля на Python, но а также описаны её модификации и проведён небольшой сравнительный анализ основных методов регуляризации. Помимо этого, в конце указаны дополнительные источники для более глубокого ознакомления.

https://habr.com/ru/articles/804135/

#линейная_регрессия #linear_regression #polynomial #ridge #lasso #elasticnet #regularization #реализация_с_нуля #python #data_science

Линейная регрессия. Основная идея, модификации и реализация с нуля на Python

В машинном и глубоком обучении линейная регрессия занимает особое место, являясь не просто статистическим инструментом, но а также фундаментальным компонентом для многих более сложных концепций. В...

Хабр

Логистическая и Softmax-регрессии. Теоретические основы и реализация с нуля на Python

Начнём с более простого. Логистическая регрессия — линейный бинарный классификатор, основанный на применении сигмоидальной функции к линейной комбинации признаков, результатом которого является вероятность принадлежности к определённому классу. Обычно порог устанавливается 0.5: если вероятность меньше порога — класс относится к 0, а если больше — к 1. В принципе, условия определения логистической регрессии такие же как и у линейной за исключением бинаризации таргета.

https://habr.com/ru/articles/803397/

#логистическая_регрессия #logistic_regression #softmax #линейная_классификация #принцип_работы #реализация_с_нуля #python #data_science #машинное_обучение

Логистическая и Softmax-регрессии. Теоретические основы и реализация с нуля на Python

Начнём с более простого. Логистическая регрессия — линейный бинарный классификатор, основанный на применении сигмоидальной функции к линейной комбинации признаков, результатом которого является...

Хабр

Линейный дискриминантный анализ (LDA). Принцип работы и реализация с нуля на Python

Линейный дискриминантный анализ (Linear Discriminant Analysis или LDA) — алгоритм классификации и понижения размерности, позволяющий производить разделение классов наилучшим образом. Основная идея LDA заключается в предположении о многомерном нормальном распределении признаков внутри классов и поиске их линейного преобразования, которое максимизирует межклассовую дисперсию и минимизирует внутриклассовую. Другими словами, объекты разных классов должны иметь нормальное распределение и располагаться как можно дальше друг от друга, а одного класса — как можно ближе.

https://habr.com/ru/articles/802511/

#дискриминант #lda #линейный_классификатор #принцип_работы #реализация_с_нуля #python #data_science #машинное_обучение

Линейный дискриминантный анализ (LDA). Принцип работы и реализация с нуля на Python

Линейный дискриминантный анализ (Linear Discriminant Analysis или LDA) — алгоритм классификации и понижения размерности, позволяющий производить разделение классов наилучшим образом. Основная идея LDA...

Хабр

Наивный байесовский классификатор. Основная идея, модификации и реализация с нуля на Python

Наивный байесовский классификатор (Naive Bayes classifier) — вероятностный классификатор на основе формулы Байеса со строгим (наивным) предположением о независимости признаков между собой при заданном классе, что сильно упрощает задачу классификации из-за оценки одномерных вероятностных плотностей вместо одной многомерной. Помимо теории и реализации с нуля на Python, в данной статье также будет приведён небольшой пример использования наивного Байеса в контексте фильтрации спама со всеми подробными расчётами вручную.

https://habr.com/ru/articles/802435/

#наивный_байесовский_классификатор #naive_bayes #принцип_работы #реализация_с_нуля #python #data_science #машинное_обучение #байес #bayes

Наивный байесовский классификатор. Основная идея, модификации и реализация с нуля на Python

Наивный байесовский классификатор (Naive Bayes classifier) — вероятностный классификатор на основе формулы Байеса со строгим (наивным) предположением о независимости признаков между собой при заданном...

Хабр

Метод опорных векторов (SVM). Подходы, принцип работы и реализация с нуля на Python

Метод опорных векторов (Support Vector Machine или просто SVM) — мощный и универсальный набор алгоритмов для работы с данными любой формы, применяемый не только для задач классификации и регрессии, но и также для выявления аномалий. В данной статье будут рассмотрены основные подходы к созданию SVM, принцип работы, а также реализации с нуля его наиболее популярных разновидностей.

https://habr.com/ru/articles/802185/

#метод_опорных_векторов #support_vector_machine #svm #алгоритмы_машинного_обучения #реализация_с_нуля #python #data_science #машинное_обучение #принцип_работы

Метод опорных векторов (SVM). Подходы, принцип работы и реализация с нуля на Python

Метод опорных векторов (Support Vector Machine или просто SVM) — мощный и универсальный набор алгоритмов для работы с данными любой формы, применяемый не только для задач классификации и регрессии, но...

Хабр

Метод K-ближайших соседей (KNN). Принцип работы, разновидности и реализация с нуля на Python

К-ближайших соседей (K-Nearest Neighbors или просто KNN) — алгоритм классификации и регрессии, основанный на гипотезе компактности, которая предполагает, что расположенные близко друг к другу объекты в пространстве признаков имеют схожие значения целевой переменной или принадлежат к одному классу.

https://habr.com/ru/articles/801885/

#knn #к_ближайших_соседей #balltree #алгоритмы_машинного_обучения #реализация_с_нуля #python #data_science #машинное_обучение #метод_ближайших_соседей

Метод K-ближайших соседей (KNN). Принцип работы, разновидности и реализация с нуля на Python

К-ближайших соседей (K-Nearest Neighbors или просто KNN) — алгоритм классификации и регрессии, основанный на гипотезе компактности, которая предполагает, что расположенные близко друг к другу объекты...

Хабр

Дерево решений (CART). От теоретических основ до продвинутых техник и реализации с нуля на Python

Дерево решений CART (Classification and Regressoin Tree) — алгоритм классификации и регрессии, основанный на бинарном дереве и являющийся фундаментальным компонентом случайного леса и бустингов, которые входят в число самых мощных алгоритмов машинного обучения на сегодняшний день. Деревья также могут быть не бинарными в зависимости от реализации. К другим популярным реализациям решающего дерева относятся следующие: ID3, C4.5, C5.0.

https://habr.com/ru/articles/801515/

#дерево_решений #decision_tree #cart #pruning #реализация_с_нуля #python #алгоритмы_машинного_обучения #data_science #машинное_обучение

Дерево решений (CART). От теоретических основ до продвинутых техник и реализации с нуля на Python

Дерево решений CART (Classification and Regressoin Tree) — алгоритм классификации и регрессии, основанный на бинарном дереве и являющийся фундаментальным компонентом случайного леса и бустингов,...

Хабр

Бэггинг и случайный лес. Ключевые особенности и реализация с нуля на Python

Далее пойдёт речь про бэггинг и мой самый любимый алгоритм — случайный лес. Не смотря на то, что это одни из самых первых алгоритмов среди семейства ансамблей, они до сих пор пользуются большой популярностью за счёт своей простоты и эффективности, зачастую не уступая бустингам в плане точности. О том, что это такое и как работает, далее в статье.

https://habr.com/ru/articles/801161/

#бэггинг #вставка #случайный_лес #bagging #random_forest #реализация_с_нуля #python #алгоритмы_машинного_обучения #data_science #машинное_обучение

Бэггинг и случайный лес. Ключевые особенности и реализация с нуля на Python

Далее пойдёт речь про бэггинг и мой самый любимый алгоритм — случайный лес. Не смотря на то, что это одни из самых первых алгоритмов среди семейства ансамблей, они до сих пор пользуются большой...

Хабр

Алгоритмы AdaBoost (SAMME & R2). Принцип работы и реализация с нуля на Python

Следующим мощным алгоритмом машинного обучения является AdaBoost (adaptive boosting), в основе которого лежит концепция бустинга, когда слабые базовые модели последовательно объединяются в одну сильную, исправляя ошибки предшественников. В AdaBoost в качестве базовой модели используется пень решений (могут использоваться другие модели) — дерево с небольшой глубиной, которому присваивается вектор весов размера N, каждое значение которого соответствует определённому значению y_train и изначально равно 1 / N, где N — количество образцов в обучающей выборке. Каждый следующий пень обучается с учётом весов, рассчитанных на основе ошибок предыдущего прогноза. Также для каждого обученного пня отдельно рассчитывается вес, используемый для оценки важности итоговых прогнозов.

https://habr.com/ru/articles/800499/

#adaboost #реализация_с_нуля #алгоритмы_машинного_обучения #python #принцип_работы #data_science #машинное_обучение

Алгоритмы AdaBoost (SAMME & R2). Принцип работы и реализация с нуля на Python

Следующим мощным алгоритмом машинного обучения является AdaBoost (adaptive boosting), в основе которого лежит концепция бустинга, когда слабые базовые модели последовательно объединяются в одну...

Хабр

Градиентный бустинг. Реализация с нуля на Python и разбор особенностей его модификаций (XGBoost, CatBoost, LightGBM)

На сегодняшний день градиентный бустинг (gradient boosting machine) является одним из основных production-решений при работе с табличными, неоднородными данными, поскольку обладает высокой производительностью и точностью, а если быть точнее, то его модификации, речь о которых пойдёт чуть позже. В данной статье представлена не только реализация градиентного бустинга GBM с нуля на Python, но а также довольно подробно описаны ключевые особенности его наиболее популярных модификаций.

https://habr.com/ru/articles/799725/

#градиентный_бустинг #gradient_boosting #xgboost #catboost #lightgbm #алгоритмы_машинного_обучения #data_science #машинное_обучение #реализация_с_нуля #python

Градиентный бустинг. Реализация с нуля на Python и разбор особенностей его модификаций (XGBoost, CatBoost, LightGBM)

На сегодняшний день градиентный бустинг (gradient boosting machine) является одним из основных production-решений при работе с табличными, неоднородными данными, поскольку обладает высокой...

Хабр