"It's extremely important to realise that a p-value is the probability of observing data like thas observed or more extreme, assuming the hypothesis is correct. It is not the probability of the hypothesis being true, given the data." - Lyons, arXiv:1301.1273

#Science #Physics #Hypothesis #PValue #Probability #Statistics

У вас скорее всего не получится сделать статистически обоснованный подбор личных жизненных привычек и БАДов

Допустим, вас не устраивает ваше качество сна. Вы перестали делать очевидно вредные вещи (убрали кофе на ночь), и сон улучшился, но хотелось бы поработать над ним ещё. Коллега по работе даёт вам смесь трав со зверобоем и лавандой. Вы пробуете пить его на ночь вместо кофе, и иногда сон действительно становится глубже. Но иногда нет. Вы готовы экспериментировать, но как бы проверить, действительно ли травы работают или это просто случайный разброс? Или допустим, вы не очень довольны вашей продуктивностью на работе. По заветам из "Atomic Habits" и книг по эргономике вы внедрили несколько полезных микропривычек. Но что делать, когда низковисящие фрукты закончились? Время ограничено - всего, что кто-то называет полезным, не сделать. Некоторые привычки ещё и взаимоисключающие: невозможно за обедом одновременно и общаться с кем-то и сидеть в одиночестве в тишине. Или например, вы хотите достичь более хороших показателей на рыболовном поприще... вы поняли идею. "Не недооценивайте силу малых вещей, взятых в большом количестве", - мысль мудрая, но как бы понять, какие именно малые вещи действуют конкретно в вашей ситуации? Если вы проходили курс статистики, то у вас в голове есть набросок ответа. Выделить целевую метрику, собрать историю данных, затем собрать набор данных после выбранного вмешательства, сравнить средние значения метрики до и после - и готов научно обоснованный ответ. Проблема в том, что если ввязаться в подобный проект без основательного плана, вы в итоге окажетесь с ворохом бесполезных цифр в таблице. Почему именно эта затея не для слабых духом мне бы и хотелось рассказать в этой статье.

https://habr.com/ru/articles/1009762/

#статистика #бад #gtd #привычки #pvalue #сбор_данных #эксперимент

У вас скорее всего не получится сделать статистически обоснованный подбор личных жизненных привычек и БАДов

Допустим, вас не устраивает ваше качество сна. Вы перестали делать очевидно вредные вещи (убрали кофе на ночь), и сон улучшился, но хотелось бы поработать над ним ещё. Коллега по работе даёт вам смесь...

Хабр

#statstab #487 More than meets the ITT: A guide for anticipating and investigating nonsignificant results in survey experiments

Thoughts: I see a lot of papers that make at least one of the 7 errors for "no effect".

#survey #nhst #nulleffects #nonsignificant #pvalue #power

https://doi.org/10.1017/XPS.2024.1

More than meets the ITT: A guide for anticipating and investigating nonsignificant results in survey experiments | Journal of Experimental Political Science | Cambridge Core

More than meets the ITT: A guide for anticipating and investigating nonsignificant results in survey experiments - Volume 12 Issue 1

Cambridge Core

#statstab #468 Confidence Distribution, the Frequentist Distribution Estimator of a Parameter: A Review

Thoughts: Frequentist stats must move beyond point and interval estimators, and adopt "distribution estimators".

#concurve #fisher #fiducial #pvalue

https://onlinelibrary.wiley.com/doi/full/10.1111/insr.12000

#statstab #463 One-and-a-half sided test

Thoughts: Alberson has a more different take on the issues from #461 and #462: human behaviour.

(excerpt from the book)

#pvalue #onesided #NHST #directional #hypothesis #testing #logic

https://www.routledge.com/Statistics-As-Principled-Argument/Abelson/p/book/9780805805284

#statstab #462 The paradox of one-sided vs. two-sided tests of significance

Thoughts: A solution to Royall's paradox from #461. The "null" is not one thing.

#pvalue #Royall #paradox #onesided #nhst #null #hypothesis #logic

https://www.onesided.org/articles/the-paradox-of-one-sided-v-two-sided-tests-of-significance.php

The paradox of one-sided vs. two-sided tests of significance | OneSided.org

A lot of people find as paradoxical the claim that a one-sided test of significance at a given p-value offers the same type I error guarantees as a two-sided test that produced the same p-value. Here I solve the paradox in its informal version and a formal version put forth by Royall.

www.onesided.org

#statstab #461 The One-Sided P-Value Paradox

Thoughts: "I have concluded the stronger proposition, probability of heads > ½, but I cannot conclude the weaker proposition, probability of heads > ½ or < ½"

#onetailed #pvalue #logic #Royall #paradox

https://alexanderetz.com/2015/04/20/pvalue-para/

The One-Sided P-Value Paradox

Today on Twitter there was some chatting about one-sided p-values. Daniel Lakens thinks that by 2018 we’ll see a renaissance of one-sided p-values due to the advent of preregistration. There …

The Etz-Files

#statstab #458 There is still only one test

Thoughts: Downey make a good point that all/any testing ensemble does essentially the same thing.

#randomization #testing #nhst #pvalue

https://allendowney.blogspot.com/2016/06/there-is-still-only-one-test.html

There is still only one test

In 2011 I wrote an article called "There is Only One Test" , where I explained that all hypothesis tests are based on the same framework, wh...

#statstab #469 Significance tests, p-values, and falsificationism

Thoughts: An "interesting" thread of philosophy of science and debating.

#discussion #debate #pvalue #falsification #nhst

https://discourse.datamethods.org/t/significance-tests-p-values-and-falsificationism/

Significance tests, p-values, and falsificationism

This thread takes its inspiration from the recent discussions in social science and statistics about significance tests, what they’re good for, whether p-values should be banned, and what all of that has to do with general scientific methodology, particularly the Popperian one called falsificationism. See this Twitter thread for a random place to jump into the discussion. That place, however, was where @f2harrell suggested we create a thread over here. I’ll start this thread off, if I may, with...

Datamethods Discussion Forum

Время выполнения заданий в немодерируемых UX тестах: как измерить и проверить?

Всем привет! Меня зовут Ульяна Айкович и я исследователь БКС Мир Инвестиций. Сегодня я расскажу, как мы можем глубже анализировать время выполнения заданий, а также как измерить группы респондентов в немодерируемых UX тестах. В данной статье я разберу не только медиану и процентили для оценки времени, но и критерий Манна–Уитни — простой способ статистически сравнить две группы респондентов. Приятного прочтения и погружения в мир статистики! Перейти к статье

https://habr.com/ru/articles/970348/

#статистика_в_it #анализ_данных #визуализация_данных #статистический_тест #uxисследования #дизайн #проектирование_интерфейсов #количественные_методы #pvalue #опросы

Время выполнения заданий в немодерируемых UX тестах: как измерить и проверить?

Каждый исследователь на старте, когда впервые сталкивается со статистикой Всем привет! Меня зовут Ульяна Айкович и я исследователь БКС Мир Инвестиций. Сегодня я расскажу, как мы можем глубже...

Хабр