Зручні бібліотеки Python для форматування та очищення даних

23 серпня 2016 р. • 5 хвилин читання

Зручні бібліотеки Python для форматування та очищення даних

Реальний світ безладний, і його дані теж. Настільки безладно, що нещодавнє опитування повідомило, що вчені витрачають 60% свого часу на очищення даних. На жаль, 57% з них вважають це найменш приємним аспектом своєї роботи.

Дані очищення можуть зайняти багато часу, але з’явилося багато інструментів, щоб зробити цей важливий обов’язок трохи більш стерпним. Спільнота Python пропонує безліч бібліотек для упорядкування та розбірливості даних - від стилізації DataFrames до анонімізації наборів даних.

Повідомте нас, які бібліотеки вам здаються корисними - ми завжди прагнемо визначити пріоритети, які бібліотеки додати до Mode Python Notebooks.

python
Шкода, що прибирання не так весело для науковців, як для цього маленького хлопця.

Дора призначена для дослідницького аналізу; зокрема, автоматизація найболючіших її частин, таких як вибір та вилучення функцій, візуалізація та, як ви вже здогадалися, очищення даних. Функції очищення включають:

  • Читання даних із відсутніми та погано масштабованими значеннями
  • Внесення відсутніх значень
  • Масштабування значень вхідних змінних

очищувач даних

Сюрприз, сюрприз, datacleaner очищає ваші дані, але лише один раз потрапивши у pandas DataFrame. Від творця Ренді Олсона: "очищувач даних - це не магія, і він не буде приймати неорганізовану крапку тексту і автоматично аналізувати її для вас".

Однак він буде видаляти рядки з відсутніми значеннями, замінювати відсутні значення значенням режиму або медіани для кожного стовпця за колонкою та кодувати нечислові змінні числовими еквівалентами. Ця бібліотека є досить новою, але оскільки DataFrames є фундаментальними для аналізу в Python, варто перевірити.

Створений: Ренді Олсон
Де дізнатись більше: https://github.com/rhiever/datacleaner

PrettyPandas