Розуміння статистичного тестування потужності та значимості - інтерактивна візуалізація

інтерактивна візуалізація

Слідуйте @krstoffr
Профіль Kristoffer у LinkedIn

Помилки типу I та типу II, β, α, p-значення, потужність та розміри ефекту - ритуал перевірки значущості нульової гіпотези містить багато дивних понять.

Про тестування значущості було сказано багато - більшість з них негативні. Методологи постійно зазначають, що дослідники неправильно трактують р-значення. Деякі кажуть, що це в кращому випадку безглузда вправа, а в гіршому - перешкода науковим відкриттям. Отже, я вважаю надзвичайно важливим, щоб студенти та дослідники правильно інтерпретували статистичні тести. Ця візуалізація призначена як допомога студентам, коли вони вивчають тестування статистичних гіпотез. Візуалізація базується на Z-тесті з одного зразка. Ви можете змінювати розмір вибірки, потужність, рівень значимості та розмір ефекту за допомогою повзунків, щоб побачити, як змінюється розподіл вибірки.

Налаштування

Обсяг вибірки

Розмір ефекту

Уточнення щодо потужності ("-"), коли ефект дорівнює 0

Візуалізація покаже, що "потужність" та "помилка типу II" дорівнює "-", коли d встановлено на нуль. Однак частота помилок типу I передбачає, що певна кількість тестів відхилить H0. Спокусливо також сказати, що цей коефіцієнт є "силою" тесту, і часто підручники та програмне забезпечення роблять саме це. Деякі джерела також говорять, що потужність дорівнює нулю, коли H0 дорівнює Ha. На мою думку, потужність не визначається, коли передбачуваний ефект є елементом простору параметрів H0. У цьому випадку функція потужності повертає α, і тому "потужність" не визначена. Отже, хоча функція потужності говорить, що 5% тестів відхилять нуль, немає сенсу говорити про "потужність" тут. Це також означає, що при наближенні Ha потужність наближатиметься до α при малих значеннях d. Як результат, повзунок для "потужності" не повинен бути рівним або меншим за α.