Як нормалізувати та стандартизувати дані машинного навчання в Weka

Останнє оновлення 11 грудня 2019 року

Алгоритми машинного навчання роблять припущення щодо набору даних, який ви моделюєте.

Часто вихідні дані складаються з атрибутів з різними масштабами. Наприклад, один атрибут може бути в кілограмах, а інший може бути рахунком. Хоча це і не потрібно, але часто можна підвищити продуктивність, ретельно підбираючи методи масштабування даних.

У цій публікації ви дізнаєтесь, як можна масштабувати дані, щоб усі дані мали однаковий масштаб.

Прочитавши цю публікацію, ви дізнаєтесь:

Як нормалізувати числові атрибути між діапазоном від 0 до 1.
Як стандартизувати числові атрибути, щоб мати середнє значення та одиничну дисперсію 0.
Коли обирати нормалізацію чи стандартизацію.

Почніть свій проект з моєю новою книгою Майстерність машинного навчання з Weka, включаючи покрокові навчальні посібники та зрозумілі скріншоти для всіх прикладів.

Давайте розпочнемо.

Оновлення в березні/2018: Додано альтернативне посилання для завантаження набору даних, оскільки оригінал видалено.

Прогнозувати початок діабету

Набір даних, що використовується для цього прикладу, - це набір даних про діабет Pima Indians.

Це проблема класифікації, коли кожен екземпляр представляє медичні дані для одного пацієнта, і завдання полягає в тому, щоб передбачити, чи буде у пацієнта початок діабету протягом наступних п’яти років.

Це хороший набір даних для практики масштабування, оскільки 8 вхідних змінних мають різні шкали, такі як кількість випадків, коли пацієнтка була вагітною (preg), і розрахунок індексу маси тіла (маси) пацієнтів.

Завантажте набір даних і розмістіть його у своєму поточному робочому каталозі.

Ви також можете отримати доступ до цього набору даних у вашій установці Weka, у каталозі даних/у файлі, який називається diabetes.arff.

Weka Load Diabetes Dataset

Про фільтри даних у Weka

Weka пропонує фільтри для перетворення вашого набору даних. Найкращий спосіб дізнатись, які фільтри підтримуються, і пограти з ними у наборі даних - це використовувати Провідник Weka.

Панель "Фільтр" дозволяє вибрати фільтр.

Область фільтру Weka для вибору фільтрів даних

Фільтри поділяються на два типи:

Фільтри під контролем: Це можна застосувати, але вимагати певного контролю від користувача. Такі як перебалансування екземплярів для класу.
Фільтри без нагляду: Це можна застосовувати в ненаправленому порядку. Наприклад, масштабуйте всі значення в діапазоні від 0 до 1.

Особисто я вважаю, що різниця між цими двома типами фільтрів є трохи довільною та заплутаною. Тим не менше, саме так вони викладені.

У межах цих двох груп фільтри поділяються на фільтри для атрибутів та екземплярів:

Фільтри атрибутів: Застосувати операцію над атрибутами або одним атрибутом за раз.
Фільтри екземплярів: Застосувати операцію над екземпляром або окремим екземпляром за раз.

Ця різниця має набагато більше сенсу.

Після того, як ви вибрали фільтр, його ім'я з'явиться у полі біля кнопки «Вибрати».

Ви можете налаштувати фільтр, натиснувши його назву, що відкриє вікно конфігурації. Ви можете змінити параметри фільтра і навіть зберегти або завантажити конфігурацію самого фільтра. Це чудово для відтворюваності.