Mastodawn

So I moved into industry 1.5 months ago, which has meant a proper switch from R to Python (I love both). Here are a few observations for statistics-related stuff in this switch (mainly GLMs, statistical inference, contrasts)

- #polars is really great, I love LazyFrames & streaming millions of rows of parquet files, categorical data, missing data.
- I don't really like using #statsmodels, the interface is clunky and the formula API is unfinished

1/n

#DataScience #Statistics

Fabrizio Musacchio Feb 1

Due to a recent discussion with colleagues on whether and when to use #LinearMixedModels (#LMM), I wrote a blog post comparing LMM to other approaches using simulated data. I thought, it may also be useful for others working with hierarchical data structures in #neuroscience and beyond.

🌍 https://www.fabriziomusacchio.com/blog/2026-01-31-linear_mixed_models/

#Python #Statistics #DataScience #MixedModels #Statsmodels #ANOVA #ANCOVA #GLMM #regression

Kevin Thomas ✅Aug 30, 2025

https://www.statsmodels.org/stable/index.html Just perfection and to the core! #statsmodels #DataScience

statsmodels 0.14.4

Tuomas Väisänen 📼🧟‍♂️Aug 22, 2025

I have been running some #GLM models recently using the #Python library #statsmodels, and I am thoroughly delighted by the convenience, ease-of-use and flexibility of the library. Kudos to the devs!

Show thread

Tatu Leppämäki Mar 28, 2025

Thank you to #Kone & Mai and Tor Nessling Foundations for supporting this work. A quantitative work like this would not be possible without a robust suite of FOSS tools. My thanks to the maintainers of #QGIS, #pandas, #geopandas, #duckdb, #dask, #statsmodels, #jupyter and many more!

Habr Oct 17, 2024

Как пакет с пакетами помог аналитику решить задачу для бизнеса, или keep calm and import statsmodels

Всем привет! Меня зовут Сабина, я лидер команды исследователей данных во ВкусВилле. Мы помогаем бизнесу принимать решения, ориентируясь в том числе на данные. Сегодня я расскажу об одном таком случае. Статья будет полезна аналитикам, которые хотят перестать беспокоиться и начать использовать линейную регрессию из питоновской библиотеки stasmodels.

https://habr.com/ru/companies/vkusvill/articles/851264/

#data_science #python #statsmodels #linear_regression #линейная_регрессия

Как пакет с пакетами помог аналитику решить задачу для бизнеса, или keep calm and import statsmodels

Всем привет! Меня зовут Сабина, я лидер команды исследователей данных во ВкусВилле. Мы помогаем бизнесу принимать решения, ориентируясь в том числе на данные. Сегодня я расскажу об одном таком...

Хабр

Habr Apr 29, 2024

Как обнаружить и устранить мультиколлинеарность с помощью Statsmodels в Питоне

Привет, Хабр! Мультиколлинеарность возникает, когда в модели множественной регрессии одна из независимых переменных может быть линейно предсказана с помощью других независимых переменных с высокой степенью точности. Это явление приводит к тому, что расчетные коэффициенты регрессии становятся нестабильными и их значения могут сильно изменяться в зависимости от включения или исключения других переменных в модель. Высокая мультиколлинеарность может привести к значительному изменению коэффициентов при незначительных изменениях в данных или спецификации модели. Это усложняет интерпретацию коэффициентов, поскольку они могут значительно изменяться от одного анализа к другому. Когда переменные сильно коррелированы, стандартные ошибки оценок коэффициентов увеличиваются. Это ведет к увеличению p -значений, что может ошибочно привести к заключению о том, что переменные не имеют значимого влияния на зависимую переменную, хотя на самом деле это не так. В статье рассмотрим как обнаружить и устранить мультиколлинеарность с помощью Statsmodels в Питоне.

https://habr.com/ru/companies/otus/articles/810453/

#data_science #ML #python #statsmodels

Как обнаружить и устранить мультиколлинеарность с помощью Statsmodels в Питоне

Привет, Хабр! Мультиколлинеарность возникает, когда в модели множественной регрессии одна из независимых переменных может быть линейно предсказана с помощью других независимых переменных с высокой...

Хабр

Habr Apr 11, 2024

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Одной из самых распространённых задач современной аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь о небольшой части этой совокупности - выборке. Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные об использовании лишь для 100 пользователей? Или стоит собрать данные для 1000 пользователей? Ответ интуитивно прост и понятен: чем больше данных есть в наличии, тем более точными будут прогнозируемые результаты для всей совокупности. Какую вероятность ошибиться при анализе мы можем допустить: 5% или 1%? Относятся ли две выборки к одной совокупности, или между ними есть ощутимая значимая разница и они относятся к разным совокупностям? Точность прогноза и вероятность ошибки при ответе на эти и другие вопросы поддаются вполне конкретным расчётам и могут корректироваться в зависимости от потребностей продукта и бизнеса на этапе планирования и подготовки эксперимента. Рассмотрим подробнее, как параметры эксперимента и статистические критерии оказывают влияние на результаты анализа и выводы обо всей совокупности, а для этого смоделируем тысячу A/A , A/B и A/B/C/D тестов .

https://habr.com/ru/articles/807051/

#математика #математическая_статистика #анализ_данных #статистический_анализ #ab_тесты #statsmodels #scipy #python #matplotlib #проверка_гипотез

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Одной из самых распространённых задач современной аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь о небольшой...

Хабр

pi Aug 22, 2023

#Python in #Excel (in Beta) #Microsoft 🤝 #Anaconda

Default imported libraries:
#matplotlib
#numpy
#pandas
#seaborn
#statsmodels

only for Windows, needs internet access, code executed on MS servers without network or file access

see https://aka.ms/python-in-excel-getting-started & https://www.anaconda.com/excel

Getting started with Python in Excel - Microsoft Support

Get started using Python functions directly within your Excel spreadsheet data.

Tim Kellogg Aug 22, 2023

oh wow! You'll be able to use #python from within #excel and #powerquery soon. And that Python install includes #pandas, #matplotlib and #statsmodels https://www.theverge.com/2023/8/22/23841167/microsoft-excel-python-integration-support

Microsoft is bringing Python to Excel

Microsoft is integrating Python into its Excel app. A public preview is available for Microsoft 365 subscribers now and all the Python code runs on the Microsoft Cloud.

The Verge