Розподіл F та коефіцієнт F Вступ до статистики

Розподіл, який використовується для перевірки гіпотези, є новим. Його називають розподілом F, названим на честь сера Рональда Фішера, англійського статистика. Статистика F - це відношення (частка). Існує два набори ступенів свободи; один для чисельника і один для знаменника.

коефіцієнт

Наприклад, якщо F слідує за розподілом F, і кількість ступенів свободи для чисельника дорівнює чотирьом, а кількість ступенів свободи для знаменника - десять, то F

Розподіл F походить від t-розподілу Стьюдента. Значення розподілу F - це квадрати відповідних значень t-розподілу. Одностороння ANOVA розширює t-тест для порівняння більше двох груп. Сфера цього виведення виходить за рамки цього курсу.

Для розрахунку коефіцієнта F складається дві оцінки дисперсії.

  1. Відхилення між зразками: Оцінка σ 2, тобто дисперсія вибірки, помножена на n (коли розміри вибірки однакові.). Якщо зразки мають різні розміри, дисперсія між зразками зважується, щоб врахувати різні розміри зразків. Дисперсію також називають варіація внаслідок лікування або пояснені варіації.
  2. Дисперсія в межах зразків: Оцінка σ 2, яка є середнім значенням дисперсій вибірки (також відома як об’єднана дисперсія). Коли розміри вибірки різні, дисперсія всередині зразків зважується. Дисперсію також називають варіація через помилку або незрозуміла варіація.
  • SSbet Between = сума квадратів, що представляє варіацію між різними вибірками
  • SSwithin = сума квадратів, що представляє варіацію в межах зразків, що обумовлена ​​випадковістю.

Знайти «суму квадратів» означає скласти квадрати величин, які в деяких випадках можуть бути зваженими.

MS означає “середній квадрат.”MSbetween - це дисперсія між групами, а MSwithin - дисперсія всередині груп.

Розрахунок суми квадратів та середнього квадрата

k = кількість різних груп

nj = розмір j-ї групи

sj = сума значень у j-й групі

n = загальна кількість усіх об'єднаних значень (загальний обсяг вибірки: ∑n j)

Сума квадратів усіх значень з кожної групи разом: ∑
х 2

Пояснена варіація: сума квадратів, що представляє варіацію між різними зразками:
[латекс] \ displaystyle _ >> = \ сума)> ^ >> _ >>]> - \ frac _>)> ^ >>> [/ латекс]

Незрозуміла варіація: сума квадратів, що представляють варіацію в зразках через випадковість:
[латекс] \ displaystyle _ >> = _ >> -_ >> [/ латекс]

df для різних груп (df для чисельника): df = k - 1

Рівняння для помилок у зразках (df для знаменника):

Середній квадрат (оцінка дисперсії), який обумовлений випадковістю (незрозумілі):
[латекс] \ displaystyle _ >> = \ frac _ >>>> _ >>>> [/ латекс]

MSbetween і MSwithin можна записати так:

Односторонній тест ANOVA залежить від того, що
МС між ними може впливати різниця популяцій серед засобів кількох груп. Оскільки MSwithin порівнює значення кожної групи зі своїм власним середнім значенням групи, той факт, що середні значення групи можуть бути різними, не впливає на MSwithin.

Нульова гіпотеза говорить, що всі групи є зразками з популяцій, що мають однаковий нормальний розподіл. Альтернативна гіпотеза говорить, що принаймні дві групи вибірки походять з популяцій з різним нормальним розподілом. Якщо нульова гіпотеза відповідає дійсності,
MSbetween та MSwithin повинні оцінювати одне і те ж значення.

Нульова гіпотеза говорить, що всі засоби групової сукупності рівні. Гіпотеза рівних середніх означає, що популяції мають однаковий нормальний розподіл, оскільки передбачається, що популяції нормальні і що вони мають однакові дисперсії.

F-коефіцієнт або F-статистика

Якщо
MSbetween і MSwithin оцінюють одне і те ж значення (дотримуючись переконання, що H0 відповідає дійсності), тоді коефіцієнт F повинен бути приблизно рівним одиниці. Здебільшого, лише помилки вибірки сприяли б відхиленням від однієї. Як виявилось, MSbet Between складається з дисперсії сукупності плюс дисперсії, отриманої на основі відмінностей між вибірками. MSwithin - це оцінка дисперсії популяції. Оскільки дисперсії завжди позитивні, якщо нульова гіпотеза хибна, MSbetween зазвичай буде більшим, ніж MSwithin, тоді коефіцієнт F буде більшим за одиницю. Однак, якщо ефект популяції невеликий, малоймовірно, що MSwithin буде більшим у даній вибірці.