Очищення даних у Python Очищення тексту даних у Python

Вступ

Часи, коли можна було отримувати дані у табличних таблицях, справді позаду. Хвилинка мовчання для даних, що знаходяться в кишенях електронних таблиць. Сьогодні понад 80% даних є неструктурованими - вони або присутні в силосах даних, або розкидані по цифрових архівах. Дані створюються під час розмови - від кожної розмови, яку ми проводимо в соціальних мережах, до кожного вмісту, створеного з джерел новин. Для того, щоб отримати будь-яке значуще ефективне розуміння з даних, важливо знати, як працювати з ними в його неструктурованому вигляді. Як науковий співробітник даних в одній з найбільш швидкозростаючих фірм, що займається прийняттям рішень, мій хліб і масло походить від отримання значущого розуміння з неструктурованої текстової інформації.

Одним із перших кроків у роботі з текстовими даними є їх попередня обробка. Це важливий крок до того, як дані будуть готові до аналізу. Більшість доступних текстових даних мають дуже неструктурований і шумний характер - щоб досягти кращого розуміння або побудувати кращі алгоритми, необхідно грати з чистими даними. Наприклад, дані соціальних медіа вкрай неструктуровані - це неформальне спілкування - друкарські помилки, неправильна граматика, використання сленгу, наявність небажаного вмісту, як-от URL-адреси, стоп-слова, вирази тощо є звичними підозрюваними.