Набори та кадри Двоцільна транскрипція фортепіано
Оновлення (20.09.18): Спробуйте нову реалізацію JavaScript!
Оновлення (30.10.18): Прочитайте про вдосконалення та новий набір даних у наборах даних MAESTRO та Wave2Midi2Wave!
Наступ та рамки - це наша нова модель для автоматичної транскрипції поліфонічної фортепіанної музики. Використовуючи цю модель, ми можемо перетворити необроблені записи сольних виступів на фортепіано в MIDI.
Наприклад, ви коли-небудь робили запис про себе, імпровізуючи за фортепіано, і пізніше хотіли знати, що саме ви грали? Ця модель може автоматично транскрибувати цей запис на фортепіано в піаніно MIDI, який можна використовувати для відтворення тієї самої музики на синтезаторі або як початкову точку для нот. Автоматична транскрипція відкриває багато нових можливостей для аналізу музики, яка недоступна у позначеному вигляді, та для створення набагато більших наборів навчальних даних для генеративних моделей.
Ми можемо досягти нового рівня техніки, використовуючи CNN та LSTM для прогнозування подій, що наступають, а потім використовуючи ці прогнози, щоб обумовити рамкові прогнози висоти тону.
Ви можете випробувати нашу модель із власними записами на фортепіано у своєму браузері, відвідавши Piano Scribe або блокнот Colab Onsets and Frames. Ми також зробили вихідний код доступним на GitHub як для Python, так і для JavaScript. Більш технічні подробиці доступні в нашій статті про arXiv: Onsets and Frames: Dual-Objective Piano Transcription.
| Модель | Оцінка транскрипції F1 (0–100) |
| Попередній рівень техніки | 23.14 |
| Наступ та рамки | 50,22 |
Більше метрик та деталей доступно у нашій статті.
Наведені вище приклади є гарною ілюстрацією роботи нашої системи. Безумовно, є деякі помилки, але це робить хорошу роботу з точки зору фіксації гармонії, мелодії та навіть ритму.
Причина, по якій наша модель працює так само добре, як і те, що ми розділили завдання виявлення нот на два стеки нейронних мереж: один стек навчений виявляти лише початкові кадри (перші кілька кадрів кожної ноти), а один стек навчений виявити кожен кадр, де нота активна. Попередні моделі використовували лише один стек, але ми виявили, що відокремлюючи завдання виявлення початку, ми змогли досягти набагато вищої точності.