Наука даних для біологічних, медичних та медичних досліджень Примітки до 432
2.1 BRFSS та SMART
Центри з контролю захворювань аналізують дані обстеження системи поведінкового фактора ризику (BRFSS) для конкретних столичних та мікрополітичних статистичних районів (MMSA) у програмі, яка називається Вибрані тенденції ризику розвитку міських/мікрополітичних районів BRFSS (SMART BRFSS.)
У цій роботі ми зосередимось на даних SMART 2016 року, а зокрема на даних Клівленда-Елірії, штат Огайо, Столичного статистичного району. Метою цього опитування є надання локалізованої медичної інформації, яка може допомогти медичним працівникам виявляти виникаючі проблеми зі здоров’ям на місцевому рівні, планувати та оцінювати місцеві реакції та ефективно розподіляти ресурси на конкретні потреби.
2.1.1 Ключові ресурси
- повні дані доступні у формі даних SMART BRFSS 2016 MMSA, які містяться у архівованому файлі транспортного формату SAS. Дані були опубліковані в серпні 2017 року.
- PDF із макетом змінних MMSA, в якому просто перелічені змінні, що входять до файлу даних
- PDF "Розраховані змінні", що описує фактори ризику за іменами змінних даних - також існує онлайн-зведена матриця цих розрахункових змінних, а також.
- тривалий PDF-опитування 2016 року, в якому перелічені всі питання, задані в рамках BRFSS у 2016 році
- величезний Код книги для опитування BRFSS 2016 року, який ідентифікує змінні за назвою для нас.
Пізніше цього терміну ми використаємо всі ці ресурси, щоб допомогти побудувати більш повний набір даних, ніж ми вивчатимемо сьогодні. Я також продемонструю, як я створив набір даних smartcle1, який ми будемо використовувати в цій главі.
2.2 Дані Smartcle1: Кулінарні книги
Файл даних smartcle1.csv, доступний на сторінці Даних та коду нашого веб-сайту, описує інформацію про 11 змінних для 1036 респондентів BRFSS 2016, які проживають у Клівленді-Елірії, штат Огайо, в столичному статистичному районі. Змінні у файлі smartcle1.csv перелічені нижче, а також (у деяких випадках) елементи BRFSS, які генерують ці відповіді.
2.3 smartcle2: Опускаючи відсутні спостереження: Повний аналіз справ
З метою встановлення наших перших декількох моделей ми усунемо проблему відсутності та розглянемо лише повні випадки в наших даних smartcle1. Далі в цих примітках ми обговоримо методи введення відсутніх даних.
Щоб перевірити відсутність наших даних, ми могли б розглянути можливість використання функції skim із пакету skimr. Ми виключимо ідентифікаційний код респондента (SEQNO) із цього резюме як нецікавий.
Зараз ми створимо нову таблицю під назвою smartcle2, яка містить усі змінні, крім слабкого здоров’я, і включає всіх респондентів із повними даними про змінні (крім поганого здоров’я). Ми збережемо ці спостереження з повними даними у таблиці smartcle2.
Зауважимо, що лише 896 респондентів з повна дані про 10 змінних (за винятком слабкого здоров’я) у таблиці smartcle2, порівняно з нашими оригінальними даними smartcle1, які описували 1036 респондентів та 11 змінних, але з великою кількістю відсутніх даних.
2.4 Числове підведення даних smartcle2
2.4.1 Нова іграшка: функція обробки
2.4.2 Звичайний підсумок для кадру даних
Звичайно, ми можемо скористатися звичайним резюме, щоб отримати деяку основну інформацію про дані.
2.4.3 Функція опису у Hmisc
Або ми можемо використати функцію опису з пакета Hmisc.
2.5 Врахування як аналіз дослідницьких даних
Підрахунок речей може бути надзвичайно корисним.
2.5.1 Скільки респондентів займалися фізичними вправами за останні 30 днів? Чи відрізнялося це залежно від статі?
тому ми знаємо зараз, що 42,3% обстежених у наших даних були жінками, які займалися спортом. Припустимо, що замість цього ми хочемо знайти відсоток фізичних вправ серед кожної статі ...
і тепер ми знаємо, що 82,8% чоловіків займалися хоча б раз за останні 30 днів, порівняно з 72,3% жінок.
2.5.2 Який розподіл сонників? ?
Ми можемо підрахувати кількісні змінні з дискретними наборами можливих значень, наприклад, Slephrs, яке фіксується як ціле число (яке повинно падати від 0 до 24.)
Звичайно, природний підсумок такої кількісної змінної був би графічним.
