НЛП класифікація позитивних та негативних відгуків про ресторани (модель "Мішок слів") Тараса Румежака

Привіт, науковці даних! Сьогодні ми збираємося побудувати модель обробки природної мови, щоб передбачити, чи є відгук про ресторан позитивним чи негативним.

Це дуже загальна реалізація, тому ви можете легко використовувати її з власними наборами даних та діловими проблемами. Давайте розпочнемо!

Як завжди першим кроком є імпорт необхідних бібліотек:

Існують стандартні бібліотеки для проектів машинного навчання, тому пояснювати їх немає потреби. Інші бібліотеки будуть роз’яснені пізніше.

Тепер ми повинні поглянути на наш набір даних.

Він представлений у форматі tsv. Це формат значень, розділених табуляцією, який дуже схожий на формат CSV (значення, розділені комами). Цей формат вважається кращим, ніж CSV для NLP, оскільки коми, швидше за все, будуть частиною речення, і файл CSV розпізнає їх як роздільники. І вкладки, швидше за все, не будуть частиною речення. Тож пам’ятайте про це і завжди використовуйте формат tsv.

Тут ми маємо лише дві колонки: Огляд та Сподобалось. Сподобалось - 1 за позитивні коментарі та 0 за негативні. Тепер ми повинні імпортувати його.

Ми використовуємо метод pandas read_csv, але зі спеціальним роздільником параметрів, який зараз є вкладкою. Після цього ми повинні очистити наші дані.