Поліпшення розуміння мови за допомогою безконтрольного навчання

Ми отримали найсучасніші результати щодо набору різноманітних мовних завдань із масштабованою системою агностики завдань, яку ми також випускаємо. Наш підхід - це поєднання двох існуючих ідей: трансформаторів та попередньої підготовки без нагляду. Ці результати слугують переконливим прикладом того, що поєднання контрольованих методів навчання з неконтрольованою попередньою підготовкою працює дуже добре; це ідея, яку багато хто досліджував у минулому, і ми сподіваємось, що наш результат мотивує подальші дослідження щодо застосування цієї ідеї на більших та різноманітніших наборах даних.

Прочитайте код PaperView Завдання набору даних SOTA Наше

SNLI	Текстове вкладання	89.3	89,9
MNLI Відповідні	Текстове вкладання	80,6	82.1
MNLI Невідповідність	Текстове вкладання	80.1	81.4
SciTail	Текстове вкладання	83.3	88.3
QNLI	Текстове вкладання	82.3	88.1
RTE	Текстове вкладання	61.7	56,0
STS-B	Семантична подібність	81,0	82,0
QQP	Семантична подібність	66.1	70.3
MRPC	Семантична подібність	86,0	82.3
ГОНКА	Розуміння прочитаного	53.3	59,0
ROCStories	Міркування здорового глузду	77,6	86,5
КОПА	Міркування здорового глузду	71.2	78,6
SST-2	Аналіз настрою	93.2	91.3
CoLA	Мовна прийнятність	35,0	45.4
КЛЕЙ	Базовий орієнтир	68,9	72,8

Наша система працює у два етапи; спочатку ми тренуємо модель трансформатора на дуже великому обсязі даних без нагляду - з використанням мовного моделювання як навчального сигналу - потім ми тонко налаштовуємо цю модель на значно менші контрольовані набори даних, щоб допомогти їй вирішити конкретні завдання. Ми розробили цей підхід, слідуючи нашій роботі з нейронами настрою, в якій ми відзначили, що некеровані методи навчання можуть дати дивовижно дискримінаційні особливості, коли навчаються на достатній кількості даних. Тут ми хотіли додатково дослідити цю ідею: чи можемо ми розробити одну модель, навчити її без нагляду на великому обсязі даних, а потім відрегулювати модель, щоб досягти хорошої продуктивності у багатьох різних завданнях? Наші результати показують, що такий підхід працює напрочуд добре; одна і та ж основна модель може бути точно налаштована для дуже різних завдань з мінімальною адаптацією.

Ця робота ґрунтується на підході, впровадженому в Навчаному послідовному навчанні, який показав, як покращити ефективність класифікації документів, використовуючи попередню підготовку LSTM без нагляду з подальшим контрольованим налаштуванням. Він також розширює ULMFiT, дослідження, яке показує, як єдину мовну модель LSTM, що агностикує набір даних, можна точно відрегулювати, щоб отримати найсучасніші результати роботи з різними наборами даних класифікації документів; наша робота показує, як модель, заснована на трансформаторі, може бути використана в цьому підході для досягнення успіху в більш широкому діапазоні завдань, що перевищують класифікацію документів, таких як міркування здорового глузду, семантична подібність та розуміння читання. Це також схоже на, але більш агностичне завдання, ніж ELMo, яке включає попередню підготовку, але використовує архітектури, призначені для завдання, для отримання найсучасніших результатів із широкого набору завдань.

Для досягнення наших результатів було використано дуже мало налаштувань. Усі набори даних використовують єдину пряму мовну модель, без будь-яких ансамблювань, і більшість повідомлених результатів використовують точно такі ж налаштування гіперпараметра.

Результатом, який нас особливо хвилює, є результативність нашого підходу на трьох наборах даних - COPA, RACE і ROCStories - призначених для перевірки здорового глузду та розуміння читання. Наша модель отримує нові найсучасніші результати щодо цих наборів даних із широким відривом. Вважається, що для набору цих наборів даних потрібні міркування з кількома реченнями та значні світові знання, які дозволять припустити, що наша модель вдосконалює ці навички переважно за допомогою безконтрольного навчання. Це говорить про те, що є надія на розвиток можливостей складного розуміння мови за допомогою некерованих методів.