Представляємо найсучаснішу архітектуру DIET, яка перевершує тонку настройку BERT і в 6 разів швидше

У Rasa ми дуже раді зробити доступними передові технології машинного навчання у зручному для розробників робочому процесі. Завдяки Rasa 1.8 наша дослідницька група випускає нову надсучасну полегшену багатозадачну архітектуру трансформатора для NLU: Dual Intent and Entity Transformer (DIET).

У цій публікації ми поговоримо про особливості дієти та про те, як ви можете використовувати її в Rasa для досягнення більшої точності, ніж будь-що, що було у нас раніше. Ми випускаємо наукову роботу, яка демонструє, що ця нова архітектура покращує сучасний стан техніки, перевершує тонку настройку BERT і в шість разів швидше навчається.

Що таке ДІЄТА

DIET - це багатозадачна трансформаторна архітектура, яка разом обробляє як класифікацію намірів, так і розпізнавання сутності. Він надає можливість підключати та відтворювати різні попередньо навчені вставки, такі як BERT, GloVe, ConveRT тощо. У наших експериментах не існує жодного набору вбудовувань, який би незмінно був найкращим у різних наборах даних. Тому модульна архітектура особливо важлива.

Навіщо використовувати дієту

Масштабні попередньо навчені мовні моделі не є ідеальними для розробників, що створюють розмовні програми ШІ.

Дієта відрізняється тим, що вона:

Це модульна архітектура, яка вписується в типовий робочий процес розробки програмного забезпечення
Паралельно великим заздалегідь навченим мовним моделям у точності та продуктивності
Покращує сучасний рівень техніки і в 6 разів швидше тренується

Широкомасштабні попередньо навчені мовні моделі показали багатообіцяючі результати щодо тестів розуміння мови, таких як GLUE та SuperGLUE, і, зокрема, показали значні вдосконалення в порівнянні з іншими методами попередньої підготовки, такими як GloVe та контрольовані підходи. Оскільки ці вбудовування проводяться у великих корпусах текстових текстів на природній мові, вони добре підготовлені для узагальнення різних завдань.

Минулого року я допоміг створити асистента довідкової служби, який би автоматизував бесіди та повторювані ІТ-процеси. Ми інтегрували помічника з BERT, оскільки на той момент BERT та інші великі мовні моделі досягали високих показників у різноманітних завданнях NLP. Хоча це допомогло вирішити деякі проблеми, BERT також представив власні проблеми; це було дуже повільно, і для тренування потрібен був графічний процесор.

Масштабні моделі, як правило, вимагають обчислень, вимагають багато часу для навчання та представляють практичні завдання для розробників програмного забезпечення, які хочуть створити надійних помічників ШІ, яких можна швидко навчити та повторити. Більше того, якщо ви створюєте багатомовних асистентів ШІ, важливо досягти високого рівня продуктивності без масштабної попередньої підготовки, оскільки більшість попередньо навчених моделей навчаються на англійській мові.