Нейронні мережі - як працює нормалізація ваги Обмін стеками штучного інтелекту

Я читав статтю Нормалізація ваги: проста репараметризація для прискорення навчання глибоких нейронних мереж щодо вдосконалення вивчення ANN за допомогою нормалізації ваги.

Вони розглядають стандартні штучні нейронні мережі, де обчислення кожного нейрона полягає у взятті зваженої суми вхідних ознак з подальшою поелементною нелінійністю

$$ y = \ phi (\ mathbf \ cdot \ mathbf + b) $$

де $ \ mathbf $ - це $ k $ -вимірний вектор ваги, $ b $ - термін скалярного зміщення, $ \ mathbf $ - $ k $ -вимірний вектор вхідних ознак, $ \ phi (\ cdot) $ позначає елементно нелінійність, а $ y $ позначає скалярний вихід нейрона.

Потім вони пропонують перепараметризувати кожен вектор ваги $ \ mathbf $ з точки зору вектора параметрів $ \ mathbf $ і скалярного параметра $ g $ і замість цього виконати стохастичний градієнтний спуск щодо цих параметрів.

де $ \ mathbf $ - $ k $ -вимірний вектор, $ g $ - скаляр, а $ \ | \ mathbf \ | $ позначає евклідову норму $ \ mathbf $. Вони називають це репараметризацією нормалізації ваги.

Для чого використовується цей скаляр $ g $ і звідки він береться? Чи є $ \ mathbf $ нормованою вагою? Як взагалі працює нормалізація ваги? У чому полягає інтуїція?

1 відповідь 1

Ваше тлумачення цілком правильне. Я не міг зрозуміти, як це пришвидшить конвергенцію. Те, що вони роблять, - це в основному перепризначення величини весового вектора (також зване нормою весового вектора).