Mastodawn

Линейная регрессия на стероидах: Double Machine Learning для устранения смещений в данных

Любой аналитик знает, что самым надёжным способом проверки гипотез являются рандомизированные контролируемые эксперименты (RCT), или, как их называют в народе — A/B-тесты. На практике часто возникают ситуации, когда провести A/B-тест невозможно — в основном это происходит по этическим или техническим причинам. Однако бывают кейсы, когда рандомизация невозможна потому, что treatment-ом является определённое действие пользователя. Например, treatment-ом может быть оформление платной подписки или отмена бронирования на сервисе. Давайте назовём такой вид воздействия добровольным. В русскоязычном пространстве, и в частности на Хабре, достаточно много статей, посвящённых таким методам Causal Inference, как DiD, PSM и Causal Impact. Тем не менее, к моему удивлению, практически нет статей, посвящённых методам на основе ортогонализации и regression adjustment, хотя, на мой взгляд, именно эти методы являются самыми удобными для оценки эффекта от добровольного treatment-а. Пришло время исправить это недоразумение и разобрать метод Double/Debiased Machine Learning (DML) и Partial Linear Regression для задач Causal Inference!

https://habr.com/ru/articles/1043704/

#causal_inference #machine_learning #abтестирование #причинноследственный_анализ #differenceindifference #psm #causalml #causalimpact #causal_effect #causality

Линейная регрессия на стероидах: Double Machine Learning для устранения смещений в данных

Хабр

Habr Mar 25

Как оценить акцию без A/B-теста: от простых способов к сложным

Как правильно оценивать влияние кампаний, если А/В-тест не возможен? Рассмотрим несколько вариантов: от самых простых к не самым, но сложным.

https://habr.com/ru/articles/1014924/

#Propensity #ABтест #Оценка #causal_inference #causal_impact #квазиэксперимент #propensity_score_matching

Как оценить акцию без A/B-теста: от простых способов к сложным

Как правило, акции оценивают через А/В-тесты. Но что если теста не было, а оценить эффекты надо? Разберём несколько способов: простой Diff-in-Diff и сложный Propensity score matching с подбором...

Хабр

Habr Mar 5

Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

Сегодня расскажу о модели, которую мы построили для оценки реального эффекта промокодов. Главные вопросы: кому, какой, и зачем мы выдаем промокод. Спойлер: ответ нас удивил. И именно этот ответ стал главной причиной, по которой эту модель вообще стоило строить. Представьте стандартный отчёт по промокампании: «Пользователи, применившие промокод, потратили на 800 рублей больше среднего». Бизнес доволен, маркетинг рапортует об успехе. Но подождите, а сколько из них потратили бы эти деньги и без промокода? Это не риторический вопрос. Это принципиальная проблема, которая называется selection bias — систематическая ошибка отбора.

https://habr.com/ru/companies/X5Tech/articles/1005410/

#causal_inference #differenceindifference #propensity_score_matching #uplift_modeling #a_b_testing #counterfactual_learning #catboost #machine_learning #data_science #python

Как мы научились честно считать эффект промокодов: Causal Inference в онлайн-доставке X5 Digital

Привет, Хабр! Меня зовут Кореньков Александр, и я работаю в команде «Выгода и вовлечение» в направлении продуктовой аналитики онлайн-доставки в компании X5 Digital. Занимаюсь машинным обучением на...

Хабр

Habr Dec 10

Проксируй это: как ускорить A/B-тесты и не попасть в ловушку метрик

В A/B-тестах хотелось бы смотреть на главную метрику, ту самую North Star, которая показывает успех продукта. Но на практике она почти всегда медленная, шумная и бесполезная для быстрых решений. Например, вы запускаете тест новой системы рекомендаций, ждёте неделю, две, а LifeTime Value не двигается. И непонятно, это потому что нет результата или ещё рано делать выводы. Чтобы не тратить месяцы на догадки, можно воспользоваться прокси-метриками — быстрыми, чувствительными показателями, которые реагируют раньше, чем бизнес-метрика «успевает моргнуть». Проблема в том, что это решение часто требует дополнительные ресурсы. Привет, Хабр! Меня зовут Артем Ерохин, и я Data Scientist в X5 Tech. Я прочитал современные исследования, пропустил их через свой опыт и собрал концентрат подходов к работе с прокси-метриками. Постараюсь передать только суть. Разберемся, зачем нужны прокси, как с ними не выстрелить себе в ногу, где заканчивается польза и начинается самообман.

https://habr.com/ru/companies/X5Tech/articles/974372/

#ab_тестирование #проксиметрики #эксперименты #причинноследственный_анализ #causal_inference #анализ_данных #product_analytics #surrogate_models #north_star_metric #корреляция

Проксируй это: как ускорить A/B-тесты и не попасть в ловушку метрик

Хабр

Habr Dec 18, 2024

Diff-in-diff: жизнь за пределами идеального эксперимента

Привет, Хабр! На связи команда ad-hoc аналитики X5 Tech. Основная задача аналитика при проведении А/Б тестирования - оценка эффекта воздействия (тритмента). В этой статье мы обсудим, что такое идеальный эксперимент и почему он позволяет корректно оценить эффект от воздействия. Затем расскажем, когда идеальный эксперимент невозможен и дадим интуитивное обоснование того, как метод difference-in-difference помогает справиться с оценкой эффекта воздействия в таких ситуациях. В конце мы обсудим формальные предпосылки метода и покажем на примере симуляций последствия их невыполнения.

https://habr.com/ru/companies/X5Tech/articles/867734/

#статистика #эконометрика #causal_inference #differenceindifference #diffindiff #абтесты #эксперимент #линейная_регрессия #абтестирование #treatment

Diff-in-diff: жизнь за пределами идеального эксперимента

Привет, Хабр! На связи команда ad-hoc аналитики X5 Tech. Основная задача аналитика при проведении А/Б тестирования - оценка эффекта воздействия (тритмента). Примеров задач по оценке эффекта...

Хабр

Habr Oct 3, 2024

Causal Inference: прозрение и практика. Лекция 2. Рандомизированные контролируемые испытания

Предыдущая лекция . Рандомизированные контролируемые испытания (РКИ) представляют собой наиболее объективную, прозрачную и эффективную методологию для проведения экспериментов. Они пользуются огромной популярностью и применяются в самых разных сферах, включая науку, медицину, маркетинг и технологии. С их помощью учёные и специалисты могут проверять эффективность новых методов лечения, лекарственных препаратов, продуктов или услуг, сравнивая результаты между двумя или более группами. РКИ встречаются гораздо чаще, чем может показаться на первый взгляд. Это невероятно популярный метод исследования причинно‑следственных связей. Хотя они довольно просты в реализации, их точность значительно превосходит все другие методы аппроксимации .

https://habr.com/ru/companies/sberbank/articles/847406/

#Causal_Inference #эконометрика #причинноследственный_вывод

Causal Inference: прозрение и практика. Лекция 2. Рандомизированные контролируемые испытания

Хабр

Habr Oct 2, 2024

Causal Inference: прозрение и практика. Лекция 1. Основные понятия Causal Inference

В нашем веке центральное место в анализе и использовании данных занимает Data Science. Однако часто данное понятие сводят к одним лишь алгоритмам машинного обучения или даже искусственному интеллекту, преуменьшая другие важные аспекты этой области знаний. История формирования современной пауки о данных началась со сближения Двух могущественных инструментов — эконометрики и машинного обучения. В разные времена они казались двумя противоположностями в анализе данных. Машинное обучение было ориентировано на высокую точность прогнозов, порой жертвуя понятностью моделей. Эконометрика же делала акцент на интерпретируемости, понимании причинно‑следственных связей, иногда оставаясь в тени из‑за ограниченности моделей. Однако со временем стало ясно, что для полного понимания данных необходимо научиться объединять эти два подхода. Здесь на сцену выходит причинно‑следственный вывод (Causal Inference). Эта область Data Science помогает раскрыть причины явлений, объединяя преимущества как машинного обучения, так и эконометрики. Judea Pearl в своей статье 2021 года подчеркивает важность причинно‑следственного вывода как «ключевого элемента для достижения баланса между радикальным эмпиризмом ML и интерпретационным подходом эконометрики». Таким образом, Causal Inference — это область статистики и научных исследований, направленная на выявление и измерение причинно‑следственных связей между переменными. Она помогает определить, какое воздействие оказывает изменение одной переменной на другую, отличая это воздействие от простых корреляций.

https://habr.com/ru/companies/sberbank/articles/847382/

#Causal_Inference #эконометрика #причинноследственный_вывод

Causal Inference: прозрение и практика. Лекция 1. Основные понятия Causal Inference

В нашем веке центральное место в анализе и использовании данных занимает Data Science. Однако часто данное понятие сводят к одним лишь алгоритмам машинного обучения или даже...

Хабр

simonthelwall Jan 6, 2024

I've payed the $20 for the enhanced chatGPT level to see how it manages data analysis. I've fed it a dummy data set and given it the prompt below.
I must say, I'm pretty damn impressed despite my scepticism of AI generally.

#data_analysis #ai #causal_inference