Машинне навчання - Нормалізуйте дані до або після розділення навчальних та тестових даних Переповнення стека
Я хочу розділити свої дані на поїзд і набір тестів, чи слід застосовувати нормалізацію даних до або після поділу? Чи має це якесь значення при побудові прогнозної моделі?

3 відповіді 3
Спочатку потрібно розділити дані на навчальний і тестовий набір (набір перевірки також може бути корисним).
Не забувайте, що точки тестування даних представляють реальні дані. Нормалізація ознак (або стандартизація даних) пояснювальних (або предикторів) змінних - це техніка, яка використовується для центрування та нормалізації даних шляхом віднімання середнього та ділення на дисперсію. Якщо взяти середнє значення та дисперсію цілого набору даних, ви введете майбутню інформацію до пояснювальних змінних навчальної програми (тобто середнє значення та дисперсія).