Регресія - Проблеми з гарячим кодуванням проти
Я усвідомлюю той факт, що категоріальні змінні з рівнями k повинні кодуватися змінними k-1 у фіктивному кодуванні (аналогічно для багатозначних категоріальних змінних). Мені було цікаво, скільки проблеми виконує одноразове кодування (тобто використання k змінних замість цього) над фіктивним кодуванням для різних методів регресії, переважно лінійної регресії, покараної лінійної регресії (Lasso, Ridge, ElasticNet) на основі дерева (випадкові ліси, машини для підвищення градієнта).

Я знаю, що при лінійній регресії виникають проблеми мультиколінеарності (хоча на практиці я без жодних проблем встановив лінійну регресію за допомогою OHE).
Однак, чи потрібно використовувати фіктивне кодування в усіх з них, і наскільки неправильними будуть результати, якщо використовувати одногаряче кодування?
Я зосереджуюсь на прогнозуванні в регресійних моделях з кількома категоріальними змінними (з високою кардинальністю), тому мене не цікавлять довірчі інтервали.