Регресійний аналіз

Регресійний аналіз - широко застосовувана техніка, яка корисна для багатьох застосувань. Ми представляємо методику тут і розширюємо її використання в наступних модулях.

Проста лінійна регресія

Проста лінійна регресія - це техніка, яка є доцільною для розуміння зв'язку між однією незалежною (або предикторною) змінною та однією постійною залежною (або результативною) змінною. Наприклад, припустимо, ми хочемо оцінити зв'язок між загальним холестерином (у міліграмах на децилітр, мг/дл) та індексом маси тіла (ІМТ, виміряним як відношення ваги в кілограмах до зросту в метрах 2), де загальний холестерин є залежним змінної, а ІМТ - незалежна змінна. При регресійному аналізі залежну змінну позначають Y, а незалежну змінну X. Отже, у цьому випадку Y = загальний холестерин і X = ІМТ.

Коли існує одна суцільна незалежна змінна та одна незалежна змінна, аналіз називається простим лінійним регресійним аналізом. Цей аналіз передбачає наявність лінійної асоціації між двома змінними. (Якщо висувається гіпотеза про іншу залежність, таку як криволінійна або експоненціальна залежність, виконуються альтернативні регресійні аналізи.)

Малюнок нижче - діаграма розсіяння, що ілюструє взаємозв'язок між ІМТ та загальним холестерином. Кожна точка представляє спостережувану (х, у) пару, в даному випадку ІМТ та відповідний загальний холестерин, виміряний у кожного учасника. Зверніть увагу, що незалежна змінна (ІМТ) знаходиться на горизонтальній осі, а залежна змінна (Загальний холестерин в сироватці крові) на вертикальній осі.

ІМТ та загальний холестерин

незалежна змінна

Графік показує, що існує позитивний або прямий зв'язок між ІМТ та загальним холестерином; учасники з нижчим ІМТ частіше мають нижчий рівень загального холестерину, а учасники з більш високим ІМТ мають вищий рівень загального холестерину. На противагу цьому, припустимо, ми досліджуємо зв'язок між ІМТ та холестерином ЛПВЩ.

На відміну від цього, на графіку нижче показано взаємозв'язок між ІМТ та ЛПВЩ холестерин в тій же вибірці з n = 20 учасників.

ІМТ та холестерин ЛПВЩ

Цей графік показує негативну або зворотну зв'язок між ІМТ та холестерином ЛПВЩ, тобто ті, у кого нижчий ІМТ, частіше мають більш високий рівень холестерину ЛПВЩ, а ті, у кого ІМТ, частіше мають нижчий рівень холестерину ЛПВЩ.

Для будь-якого з цих співвідношень ми могли б використовувати простий аналіз лінійної регресії для оцінки рівняння прямої, що найкраще описує зв'язок між незалежною змінною та залежною змінною. Просте рівняння лінійної регресії є таким:

де Y прогнозована або очікувана цінність результату, X є предиктором, b0 - розрахунковий Y-перехват, і b1 - розрахунковий нахил. Перехоплення Y та нахил оцінюються на основі даних вибірки, і вони є значеннями, які мінімізують суму квадратних різниць між спостережуваними та прогнозованими значеннями результату, тобто оцінки мінімізують:

Ці відмінності між спостережуваними та передбачуваними значеннями результату називаються залишки . Оцінки перетину Y та нахилу мінімізують суму квадратних залишків і називаються оцінки найменших квадратів . 1