Поліпшення розуміння мови за допомогою безконтрольного навчання

Ми отримали найсучасніші результати щодо набору різноманітних мовних завдань із масштабованою системою агностики завдань, яку ми також випускаємо. Наш підхід - це поєднання двох існуючих ідей: трансформаторів та попередньої підготовки без нагляду. Ці результати слугують переконливим прикладом того, що поєднання контрольованих методів навчання з неконтрольованою попередньою підготовкою працює дуже добре; це ідея, яку багато хто досліджував у минулому, і ми сподіваємось, що наш результат мотивує подальші дослідження щодо застосування цієї ідеї на більших та різноманітніших наборах даних.

Прочитайте код PaperView Завдання набору даних SOTA Наше
SNLI Текстове вкладання 89.3 89,9
MNLI Відповідні Текстове вкладання 80,6 82.1
MNLI Невідповідність Текстове вкладання 80.1 81.4
SciTail Текстове вкладання 83.3 88.3
QNLI Текстове вкладання 82.3 88.1
RTE Текстове вкладання 61.7 56,0
STS-B Семантична подібність 81,0 82,0
QQP Семантична подібність 66.1 70.3
MRPC Семантична подібність 86,0 82.3
ГОНКА Розуміння прочитаного 53.3 59,0
ROCStories Міркування здорового глузду 77,6 86,5
КОПА Міркування здорового глузду 71.2 78,6
SST-2 Аналіз настрою 93.2 91.3
CoLA Мовна прийнятність 35,0 45.4
КЛЕЙ Базовий орієнтир 68,9 72,8

Наша система працює у два етапи; спочатку ми тренуємо модель трансформатора на дуже великому обсязі даних без нагляду - з використанням мовного моделювання як навчального сигналу - потім ми тонко налаштовуємо цю модель на значно менші контрольовані набори даних, щоб допомогти їй вирішити конкретні завдання. Ми розробили цей підхід, слідуючи нашій роботі з нейронами настрою, в якій ми відзначили, що некеровані методи навчання можуть дати дивовижно дискримінаційні особливості, коли навчаються на достатній кількості даних. Тут ми хотіли додатково дослідити цю ідею: чи можемо ми розробити одну модель, навчити її без нагляду на великому обсязі даних, а потім відрегулювати модель, щоб досягти хорошої продуктивності у багатьох різних завданнях? Наші результати показують, що такий підхід працює напрочуд добре; одна і та ж основна модель може бути точно налаштована для дуже різних завдань з мінімальною адаптацією.

Ця робота ґрунтується на підході, впровадженому в Навчаному послідовному навчанні, який показав, як покращити ефективність класифікації документів, використовуючи попередню підготовку LSTM без нагляду з подальшим контрольованим налаштуванням. Він також розширює ULMFiT, дослідження, яке показує, як єдину мовну модель LSTM, що агностикує набір даних, можна точно відрегулювати, щоб отримати найсучасніші результати роботи з різними наборами даних класифікації документів; наша робота показує, як модель, заснована на трансформаторі, може бути використана в цьому підході для досягнення успіху в більш широкому діапазоні завдань, що перевищують класифікацію документів, таких як міркування здорового глузду, семантична подібність та розуміння читання. Це також схоже на, але більш агностичне завдання, ніж ELMo, яке включає попередню підготовку, але використовує архітектури, призначені для завдання, для отримання найсучасніших результатів із широкого набору завдань.

Для досягнення наших результатів було використано дуже мало налаштувань. Усі набори даних використовують єдину пряму мовну модель, без будь-яких ансамблювань, і більшість повідомлених результатів використовують точно такі ж налаштування гіперпараметра.

Результатом, який нас особливо хвилює, є результативність нашого підходу на трьох наборах даних - COPA, RACE і ROCStories - призначених для перевірки здорового глузду та розуміння читання. Наша модель отримує нові найсучасніші результати щодо цих наборів даних із широким відривом. Вважається, що для набору цих наборів даних потрібні міркування з кількома реченнями та значні світові знання, які дозволять припустити, що наша модель вдосконалює ці навички переважно за допомогою безконтрольного навчання. Це говорить про те, що є надія на розвиток можливостей складного розуміння мови за допомогою некерованих методів.