Набори та кадри Двоцільна транскрипція фортепіано

Оновлення (20.09.18): Спробуйте нову реалізацію JavaScript!

Оновлення (30.10.18): Прочитайте про вдосконалення та новий набір даних у наборах даних MAESTRO та Wave2Midi2Wave!

Наступ та рамки - це наша нова модель для автоматичної транскрипції поліфонічної фортепіанної музики. Використовуючи цю модель, ми можемо перетворити необроблені записи сольних виступів на фортепіано в MIDI.

Наприклад, ви коли-небудь робили запис про себе, імпровізуючи за фортепіано, і пізніше хотіли знати, що саме ви грали? Ця модель може автоматично транскрибувати цей запис на фортепіано в піаніно MIDI, який можна використовувати для відтворення тієї самої музики на синтезаторі або як початкову точку для нот. Автоматична транскрипція відкриває багато нових можливостей для аналізу музики, яка недоступна у позначеному вигляді, та для створення набагато більших наборів навчальних даних для генеративних моделей.

Ми можемо досягти нового рівня техніки, використовуючи CNN та LSTM для прогнозування подій, що наступають, а потім використовуючи ці прогнози, щоб обумовити рамкові прогнози висоти тону.

Ви можете випробувати нашу модель із власними записами на фортепіано у своєму браузері, відвідавши Piano Scribe або блокнот Colab Onsets and Frames. Ми також зробили вихідний код доступним на GitHub як для Python, так і для JavaScript. Більш технічні подробиці доступні в нашій статті про arXiv: Onsets and Frames: Dual-Objective Piano Transcription.

Модель	Оцінка транскрипції F1 (0–100)
Попередній рівень техніки	23.14
Наступ та рамки	50,22

Показники якості транскрипції.
Більше метрик та деталей доступно у нашій статті.

Наведені вище приклади є гарною ілюстрацією роботи нашої системи. Безумовно, є деякі помилки, але це робить хорошу роботу з точки зору фіксації гармонії, мелодії та навіть ритму.

Причина, по якій наша модель працює так само добре, як і те, що ми розділили завдання виявлення нот на два стеки нейронних мереж: один стек навчений виявляти лише початкові кадри (перші кілька кадрів кожної ноти), а один стек навчений виявити кожен кадр, де нота активна. Попередні моделі використовували лише один стек, але ми виявили, що відокремлюючи завдання виявлення початку, ми змогли досягти набагато вищої точності.