#statstab #534 Model-averaged Bayesian t tests

Thoughts: I find this testing ensemble approach very amenable to theory building. Check a few models that include/exclude assumptions you may/not care about.

#robust #ttest #bayes #bma #jasp

https://link.springer.com/article/10.3758/s13423-024-02590-5

Model-averaged Bayesian t tests - Psychonomic Bulletin & Review

One of the most common statistical analyses in experimental psychology concerns the comparison of two means using the frequentist t test. However, frequentist t tests do not quantify evidence and require various assumption tests. Recently, popularized Bayesian t tests do quantify evidence, but these were developed for scenarios where the two populations are assumed to have the same variance. As an alternative to both methods, we outline a comprehensive t test framework based on Bayesian model averaging. This new t test framework simultaneously takes into account models that assume equal and unequal variances, and models that use t-likelihoods to improve robustness to outliers. The resulting inference is based on a weighted average across the entire model ensemble, with higher weights assigned to models that predicted the observed data well. This new t test framework provides an integrated approach to assumption checks and inference by applying a series of pertinent models to the data simultaneously rather than sequentially. The integrated Bayesian model-averaged t tests achieve robustness without having to commit to a single model following a series of assumption checks. To facilitate practical applications, we provide user-friendly implementations in JASP and via the $$\texttt {RoBTT}$$ RoBTT package in $$\texttt {R}$$ R . A tutorial video is available at https://www.youtube.com/watch?v=EcuzGTIcorQ

SpringerLink

#statstab #523 Pre/Post design: the fallacy of comparing difference scores

Thoughts: Another easy read on pre-post design and some concerns about change scores.

#education #guide #prepost #ancova #change #ttest #design

https://garstats.wordpress.com/2026/02/20/prepost/

Pre/Post design: the fallacy of comparing difference scores

Pre/post designs are common in medicine, pre-clinical animal research and in psychology: you measure something at baseline, then randomly allocate participants to 2 or more groups, each receiving d…

basic statistics

#statstab #527 t is for Trouble (and Textbooks): A Critique of Some Examples of the Paired-Samples t-test

Thoughts: Some issues seem to reappear in the field. We need better training.

#ttest #design #methods #error #analysis #repeatedmeasures
#outliers

https://www.jstor.org/stable/pdf/2987888.pdf?casa_token=cJM8NiLV_ygAAAAA:yWSbczJx4y1-PwhXptS3vh7mwzPzJ_VnUoF7w_v8yvKcY6kJku29daCauTL6V6tywgHdAPI8rAZqCLXgBsh873fRUXM8jjpbjRqN0AX-t8I3e-rXMQ

#statstab #499 SIMPLICITY AND COMPLEXITY IN ECOLOGICAL DATA ANALYSIS

Thoughts: I dislike this paper, but I don't mind sharing views that disagree with my own. Effective communication matters.

#analysis #critique #critical #ANOVA #ttest #simplicity #communication

https://doi.org/10.1890/0012-9658(2007)88[56:SACIED]2.0.CO;2

Ich sitze halb unter dem Vordach, der Logger klappert leicht im Wind – so ein dumpfes klack, als wollte er mich dran erinnern, dass beim nächsten Stoß das WLAN sicher sein sollte. Es sind 13 °C, wolkig, und wie schon an Tag 27 zeigt sich wieder dieser Kapazitäts‑Shift bei etwa 70 % relativer Feuchte. Reproduzierbar. Und das ist spannend genug, um den restlichen Nachmittag damit zu verbringen. Reproduzierbarkeit oder Zufall Wenn sich das wirklich über mehrere Läufe […]

Trustworthy experimentation для B2C: как перестать угадывать в A/B‑тестах

В продуктовой аналитике легко дойти до того момента, когда экспериментов много, а доверия к результатам все меньше и меньше: тесты закрывают “когда стало понятно”, p-value проверяют чуть ли не каждый день (принимая преждевременные решения), MDE забывают фиксировать, а денежные метрики зашумлены так, что выводы получаются, мягко говоря, спорные. В этой статье я показываю практический каркас для более надежных A/B-тестов в B2C: как делать анализ мощности и размера выборки для конверсии и ARPU, как интерпретировать кривую мощности анализа теста и trade-off между MDE, длительностью и доступным трафиком, и почему ratio-метрики вроде выручки на сессию часто лучше голого ARPU. Отдельно разбираю линеаризацию ratio-метрик: как привести их к user-level значениям, чтобы применять стандартные тесты корректнее и стабильнее.

https://habr.com/ru/articles/978702/

#анализ_мощности #размер_выборки #MDE #конверсия #ARPU #ratioметрики #линеаризация #ttest #продуктовая_аналитика #abтестирование

Trustworthy experimentation для B2C: как перестать угадывать в A/B‑тестах

В продуктовой аналитике легко дойти до состояния, когда экспериментов много, а уверенности в решениях мало. Типовые симптомы: тест идет «пока не станет понятно»; MDE забывают зафиксировать (или берут...

Хабр

Всё, что вы хотели знать о t-тесте, но боялись спросить

Всем привет! Меня зовут Александр Щукин, я аналитик в СКБ «Контур». В этой статье я расскажу о базовых основах применения t‑критерия Стьюдента. Для начала предлагаю Вам поучаствовать в викторине: если вы уверенно ответите на все вопросы ниже, то будете освобождены от прочтения этой статьи:‑)

https://habr.com/ru/articles/969226/

#ttest #степени_свободы #центральная_предельная_теорема #проверка_гипотез #abтестирование #распределение_стьюдента #статистика #pvalue

Всё, что вы хотели знать о t-тесте, но боялись спросить

Всем привет! Меня зовут Александр Щукин, я аналитик в СКБ «Контур». В этой статье я расскажу о базовых основах применения t‑критерия Стьюдента. Для начала предлагаю Вам поучаствовать в...

Хабр

#statstab #460 {permuco} permutation tests in linear models with nuisances variables

Thoughts: Supports ANOVA, ANCOVA, t-tests and more.

#permutation #randomization #ANOVA #rstats #r #pvalues #ancova #ttest

https://jaromilfrossard.github.io/permuco/index.html

Permutation Tests for Regression, (Repeated Measures) ANOVA/ANCOVA and Comparison of Signals

Functions to compute p-values based on permutation tests. Regression, ANOVA and ANCOVA, omnibus F-tests, marginal unilateral and bilateral t-tests are available. Several methods to handle nuisance variables are implemented (Kherad-Pajouh, S., & Renaud, O. (2010) <doi:10.1016/j.csda.2010.02.015> ; Kherad-Pajouh, S., & Renaud, O. (2014) <doi:10.1007/s00362-014-0617-3> ; Winkler, A. M., Ridgway, G. R., Webster, M. A., Smith, S. M., & Nichols, T. E. (2014) <doi:10.1016/j.neuroimage.2014.01.060>). An extension for the comparison of signals issued from experimental conditions (e.g. EEG/ERP signals) is provided. Several corrections for multiple testing are possible, including the cluster-mass statistic (Maris, E., & Oostenveld, R. (2007) <doi:10.1016/j.jneumeth.2007.03.024>) and the threshold-free cluster enhancement (Smith, S. M., & Nichols, T. E. (2009) <doi:10.1016/j.neuroimage.2008.03.061>).

Correlation *is* causation!

- at least mathematically

Figuring Stuff Out - Dr Mircea Zloteanu

#statstab #424 Testing time: Carey-over effects and the (faulty) two-stage procedure

Thoughts: An interesting post by Stephen Senn on how some "solutions" in testing make matters worse.

#ttest #carryover #selection #history #design #methods

https://errorstatistics.com/2020/10/28/s-senn-testing-times-guest-post/

S. Senn: Testing Times (Guest post)

  Stephen Senn Consultant Statistician Edinburgh, Scotland Testing Times Screening for attention There has been much comment on Twitter and other social media about testing for coronavirus and…

Error Statistics Philosophy