Шаблони дизайну Alteryx Data Science Прогнозовані

Шаблони проектування даних Alteryx Data Science: Форма прогнозованої моделі, Частина друга

У нашому першому дописі ми перерахували компоненти у прогностичній моделі та розглянули перші чотири. Продовжимо обговорення, розглянувши п'ятий компонент: функціональна форма.

Процес генерації даних

Прогнозна модель має на меті передбачити поведінку деяких реальних процесів. Науковці даних називають цей процес процесом формування даних, оскільки він генерує вхідні дані моделі.

Процес генерації може бути фізичним. Наприклад, процес, який поступово зношує деталь на промисловій машині, може генерувати показники вібрації, температури та звуку, які передбачають, коли деталь вийде з ладу.

Процес генерації може бути біологічним. Наприклад, можна виміряти нервові зміни у експериментальних лабораторних мишей, які піддавались фізичним вправам та дієтам, щоб побачити, як фізична активність та обмеження калорій впливають на нервове здоров’я.

Нарешті, породжувальний процес може бути соціальним. Наприклад, клієнти бізнесу можуть періодично вирішувати, чи продовжувати купувати послуги у бізнесу, або замість цього змінювати постачальника послуг (відбій).

Зверніть увагу, що деякі змінні у наведених вище прикладах є природними ефектами процесу генерації. Такі змінні є ендогенними. Змінні, якими маніпулюють люди, називаються рішеннями, лікуванням або незалежними змінними залежно від контексту. (Ось довший список типів змінних, якщо ви хочете дізнатись більше.)

Наведені вище приклади трьох типів технологічного процесу є спрощеними. Дійсно, більшість процесів генерації, які ви, ймовірно, змоделюєте, будуть сумішами цих трьох типів. (Насправді, коли є змінні прийняття рішень, ви маєте певний соціальний вплив на роботу у вашому процесі генерації.) Знання цього та знання про типи змінних допоможуть вам критично подумати про те, які змінні можуть передбачити поведінку конкретного процесу генерації. . Наприклад, якщо ви моделюєте ефективність ліків, можливо, вам доведеться включити серед вхідних змінних біологічні показники того, наскільки добре організм засвоює ліки, а також показники поведінки того, наскільки експериментальні суб'єкти відповідають виписаним лікарем рецептам.

Передбачуваність

Наше найосновніше припущення щодо генеруючого процесу полягає в тому, що його поведінка є певною мірою передбачуваною, принаймні, коли ми вибрали хороший набір перетворень та особливостей моделі. Давайте трохи зупинимось, щоб розглянути, що означає це припущення. По-перше, зауважимо, що хоча припущення не завжди справедливе, напрочуд важко знайти хороший приклад абсолютно непередбачуваного (випадкового) процесу генерації. Підкидання монети - дуже поширений приклад нібито випадкового процесу. Але емпіричні дослідження фізичного підкидання монет виявляють невеликий ступінь передбачуваності. Подібним чином люди часто кажуть, що ціна акції абсолютно непередбачувана, оскільки це (приблизно) випадкова прогулянка, тобто ціна з однаковою ймовірністю зросте або зменшиться на будь-яку дану суму кожного разу, коли ціна змінюється. Але з практичної точки зору ціни на акції потрапляють в обмежений діапазон, і в межах цього діапазону розподіл майбутньої ціни акції, враховуючи її теперішню ціну, приблизно має форму дзвона - не рівний. Акції, ціна яких зараз коштує 100 доларів, набагато частіше перейде до 101, ніж до 1001 доларів у наступний раз, коли ціна акції зміниться. У цьому сенсі 101 долар є кращим прогнозом ціни акцій, ніж 1001 долар, враховуючи поточну ціну. Ціна не зовсім випадкова.

Мабуть, найкращим прикладом, який ми можемо побудувати випадковий процес, є хороший генератор випадкових чисел. Деякі генератори випадкових чисел беруть вибірки вимірювань із фізичного (часто субатомного) процесу. Інші - це програмні алгоритми, які генерують послідовності чисел, що мають такий самий статистичний розподіл, як і послідовності справжніх випадкових чисел, хоча алгоритм повідомляє нам, яке число приходить наступним, враховуючи, яке число прийшло останнє. Такі алгоритми є псевдовипадковими. Про них важливо подумати, оскільки, хоча розподіл їхніх результатів задовольняє багато статистичних тестів на випадковість, самі алгоритми є цілком передбачуваними, оскільки процес їх генерування (комп'ютерна програма, що працює на комп'ютері) є детермінованим. Після того, як ми знаємо вхідні дані, ми можемо з певністю зробити висновок про результати роботи алгоритму. На відміну від цього, для деяких видів фізичних процесів такий тип знань, можливо, неможливий навіть в принципі.

Функціональна форма

У науці про робочі дні ми припускаємо, що наш процес генерації не є справді випадковим. Навпаки, існує детермінований зв’язок між деяким набором відповідних вхідних змінних та змінною результату (залежною), яку ми хочемо передбачити. В математиці ми називаємо такий взаємозв'язок функцією, оскільки вона відображає кожен набір значень вхідних змінних до одного значення змінної результату.

Існує три способи вказати функцію:

Найчастіше ми вказуємо функціональну форму як якийсь математичний вираз набору вхідних аргументів (ознак моделі): f (x 1, x 2) = x 1 2 + 2x 1 x 2 + log (x 2), наприклад.
Ми також можемо вказати функцію як процедуру, яка виводить одне значення для будь-якої комбінації вхідних значень.
Або ми можемо вказати функцію як таблицю з переліком вихідного значення, що відповідає кожному можливому набору вхідних значень.

Кожен із них важливий у науці про дані, як ми побачимо нижче.

Ми можемо ідеалізувати процес побудови прогностичної моделі як виявлення двох речей:

які вхідні змінні визначають змінну результату
функціональна форма детермінованих відносин .

Перші чотири частини моделі прогнозної моделі стосуються першої з них; залишок, другий.

На практиці ми насправді не очікуємо виявити справжню функціональну форму процесу генерації. Швидше, ми прагнемо просто наблизити (оцінити) це. Таким чином, відомий афоризм: "Усі моделі помилкові, але деякі моделі корисні". Багато зразків дизайну, які ми вивчатимемо у цій серії блогів, охоплюють важливі методи побудови корисних, хоча приблизних моделей.

Приклади

Давайте розглянемо кілька прикладів функціональних форм та корисні наближення до них. Ці приклади ілюструють, що модель може наблизити функціональну форму процесу генерування, а не вказувати його повністю або навіть явно, з будь-якої з кількох причин.

Приклад 2.1: Приблизний набір функцій

Частина зазначення функції - це вказівка її аргументів (входів). Якщо модель використовує лише деякі вхідні дані, необхідні для справжньої функціональної форми процесу генерації, модель може лише апроксимувати цю форму. Алгоритми вибору змінних та показники змінної важливості допомагають нам визначити корисні дані. Для ілюстрації, згадайте наші умовні дані електронної медичної картки (EMR) із попередньої публікації та графіки випадкової лісової мінливості для прогнозування відсотка жиру в організмі (PBF) з інших змінних в EMR. Давайте відтворимо цей сюжет тут:

Рисунок 1: Вартість змінної для прогнозування PBF

Обидва графіки сходяться на думці, що вік та індекс маси тіла (ІМТ) є важливими предикторами (особливостями моделі). Сюжети не погоджуються щодо важливості статі та ваги. Якщо ми віддаємо перевагу мірі чистоти вузлів змінної важливості (тій, яку зараз відображає інструмент випадкового лісу Alteryx), ми можемо вибрати як наш набір функцій. Припустимо, тепер ми обрали звичайною лінійною регресією найменших квадратів (OLS) як наш алгоритм індукції. Потік даних Alteryx буде таким, як на малюнках 2 і 3: