#statstab #557 The widespread misinterpretation of p-values as error probabilities

Thoughts: Well written & clear on the issue of p's and alpha's. I like "discrepancy" as a description of p-value.

#pvalue #nhst #fisher #alpha #hypothesis #testing #error

https://www.tandfonline.com/doi/full/10.1080/02664763.2011.567245#d1e269

Линеаризация. Увеличиваем мощность А/Б тестов с метрикой отношения

Статья о том, как линеаризация помогает оценивать А/Б тесты с метриками отношения и повышать чувствительность экспериментов. Разберём применение линеаризации на примере эксперимента со средним чеком. Построим доверительный интервал для метрики отношения. Проверим корректность работы линеаризации и покажем, в каких случаях её эффективность может снизиться. Убедимся, что CUPED увеличивает мощность критерия, и обсудим как линеаризовать ковариату.

https://habr.com/ru/companies/X5Tech/articles/1047620/

#абтесты #линеаризация #метрики_отношения #cuped #pvalue #tтест #мощность_критерия #доверительный_интервал #статистика #python

Линеаризация. Увеличиваем мощность А/Б тестов с метрикой отношения

Хабр, привет! В одной из прошлых статей мы обсуждали метрики отношения и разбирали, как оценивать эксперименты с помощью дельта-метода и бутстрепа. Сегодня рассмотрим ещё один подход — линеаризацию....

Хабр

"It's extremely important to realise that a p-value is the probability of observing data like thas observed or more extreme, assuming the hypothesis is correct. It is not the probability of the hypothesis being true, given the data." - Lyons, arXiv:1301.1273

#Science #Physics #Hypothesis #PValue #Probability #Statistics

У вас скорее всего не получится сделать статистически обоснованный подбор личных жизненных привычек и БАДов

Допустим, вас не устраивает ваше качество сна. Вы перестали делать очевидно вредные вещи (убрали кофе на ночь), и сон улучшился, но хотелось бы поработать над ним ещё. Коллега по работе даёт вам смесь трав со зверобоем и лавандой. Вы пробуете пить его на ночь вместо кофе, и иногда сон действительно становится глубже. Но иногда нет. Вы готовы экспериментировать, но как бы проверить, действительно ли травы работают или это просто случайный разброс? Или допустим, вы не очень довольны вашей продуктивностью на работе. По заветам из "Atomic Habits" и книг по эргономике вы внедрили несколько полезных микропривычек. Но что делать, когда низковисящие фрукты закончились? Время ограничено - всего, что кто-то называет полезным, не сделать. Некоторые привычки ещё и взаимоисключающие: невозможно за обедом одновременно и общаться с кем-то и сидеть в одиночестве в тишине. Или например, вы хотите достичь более хороших показателей на рыболовном поприще... вы поняли идею. "Не недооценивайте силу малых вещей, взятых в большом количестве", - мысль мудрая, но как бы понять, какие именно малые вещи действуют конкретно в вашей ситуации? Если вы проходили курс статистики, то у вас в голове есть набросок ответа. Выделить целевую метрику, собрать историю данных, затем собрать набор данных после выбранного вмешательства, сравнить средние значения метрики до и после - и готов научно обоснованный ответ. Проблема в том, что если ввязаться в подобный проект без основательного плана, вы в итоге окажетесь с ворохом бесполезных цифр в таблице. Почему именно эта затея не для слабых духом мне бы и хотелось рассказать в этой статье.

https://habr.com/ru/articles/1009762/

#статистика #бад #gtd #привычки #pvalue #сбор_данных #эксперимент

У вас скорее всего не получится сделать статистически обоснованный подбор личных жизненных привычек и БАДов

Допустим, вас не устраивает ваше качество сна. Вы перестали делать очевидно вредные вещи (убрали кофе на ночь), и сон улучшился, но хотелось бы поработать над ним ещё. Коллега по работе даёт вам смесь...

Хабр

#statstab #487 More than meets the ITT: A guide for anticipating and investigating nonsignificant results in survey experiments

Thoughts: I see a lot of papers that make at least one of the 7 errors for "no effect".

#survey #nhst #nulleffects #nonsignificant #pvalue #power

https://doi.org/10.1017/XPS.2024.1

More than meets the ITT: A guide for anticipating and investigating nonsignificant results in survey experiments | Journal of Experimental Political Science | Cambridge Core

More than meets the ITT: A guide for anticipating and investigating nonsignificant results in survey experiments - Volume 12 Issue 1

Cambridge Core

#statstab #468 Confidence Distribution, the Frequentist Distribution Estimator of a Parameter: A Review

Thoughts: Frequentist stats must move beyond point and interval estimators, and adopt "distribution estimators".

#concurve #fisher #fiducial #pvalue

https://onlinelibrary.wiley.com/doi/full/10.1111/insr.12000

#statstab #463 One-and-a-half sided test

Thoughts: Alberson has a more different take on the issues from #461 and #462: human behaviour.

(excerpt from the book)

#pvalue #onesided #NHST #directional #hypothesis #testing #logic

https://www.routledge.com/Statistics-As-Principled-Argument/Abelson/p/book/9780805805284

#statstab #462 The paradox of one-sided vs. two-sided tests of significance

Thoughts: A solution to Royall's paradox from #461. The "null" is not one thing.

#pvalue #Royall #paradox #onesided #nhst #null #hypothesis #logic

https://www.onesided.org/articles/the-paradox-of-one-sided-v-two-sided-tests-of-significance.php

The paradox of one-sided vs. two-sided tests of significance | OneSided.org

A lot of people find as paradoxical the claim that a one-sided test of significance at a given p-value offers the same type I error guarantees as a two-sided test that produced the same p-value. Here I solve the paradox in its informal version and a formal version put forth by Royall.

www.onesided.org

#statstab #461 The One-Sided P-Value Paradox

Thoughts: "I have concluded the stronger proposition, probability of heads > ½, but I cannot conclude the weaker proposition, probability of heads > ½ or < ½"

#onetailed #pvalue #logic #Royall #paradox

https://alexanderetz.com/2015/04/20/pvalue-para/

The One-Sided P-Value Paradox

Today on Twitter there was some chatting about one-sided p-values. Daniel Lakens thinks that by 2018 we’ll see a renaissance of one-sided p-values due to the advent of preregistration. There …

The Etz-Files

#statstab #458 There is still only one test

Thoughts: Downey make a good point that all/any testing ensemble does essentially the same thing.

#randomization #testing #nhst #pvalue

https://allendowney.blogspot.com/2016/06/there-is-still-only-one-test.html

There is still only one test

In 2011 I wrote an article called "There is Only One Test" , where I explained that all hypothesis tests are based on the same framework, wh...