DenseNet для схуднення · Випуск №3 · liuzhuang13slimming · GitHub

Коментарі

Копіювати посилання Цитувати відповідь

haithanhp прокоментував 23 грудня 2017 р

Дякую за чудову роботу. Я бачив, що ви використали коефіцієнти масштабування для нормалізації пакетного режиму для обрізання вхідних та вихідних ваг на шарах conv. Однак у DenseNet після базового блоку (1x1 + 3x3) попередні функції об'єднані з поточним, а розмір коефіцієнтів масштабування не відповідає до попереднього звивистого шару для обрізки. Отже, як можна обрізати ваги в цьому випадку?

До речі, коли тренувальний розрідженість DenseNet закінчується лямбда 1е-5, я помічаю, що багато факторів масштабування недостатньо малі для обрізки. Чи впливає це на продуктивність стиснутої мережі?

Текст успішно оновлено, але виявлені такі помилки:

liuzhuang13 прокоментував 28 грудня 2017 року

Дякуємо за інтерес. Ми обрізаємо канали відповідно до масштабних коефіцієнтів BN, і після цього процесу встановлюємо малі коефіцієнти (і упередження) до 0, тоді ми бачимо, які канали ми можемо обрізати, не впливаючи на мережу. Це стосується всіх мережевих структур. У DenseNet фактично розмір коефіцієнтів масштабування відповідає розміру згортки через структуру "попередньої активації".

Параметр лямбда потребує налаштування для різних наборів даних та гіперпараметрів (наприклад, швидкості навчання), тому вам може знадобитися побачити остаточну продуктивність.