Сім чистих кроків для переробки даних за допомогою Pandas або як я використовую Python там, де Excel не вдається, Tich

Тіч Мангоно

17 листопада 2017 · 10 хв читання

Кілька тижнів тому колега надіслав мені електронну таблицю з даними про втручання в галузі охорони здоров'я, що складається з багатьох вкладок, по одній вкладці на організацію. Завданням було розробити гнучку інформаційну панель для вивчення цих даних. Проблема полягала в тому, що дані були в широкому форматі, але нам потрібен був довгий формат. Раніше це було б лише черговим завданням копіювання та вставлення та іншими жахливо довгими та повторюваними завданнями, але я вирішив використати бібліотеку Pandas Python для автоматизації цього завдання, тому я взявся за розробку сценарію. Протягом 30 хвилин у мене був гнучкий код для багаторазового використання, який згодом заощадив години непотрібної ручної праці!

даних

Я хотів би поділитися з вами своїм процесом на випадок, якщо він з’явиться у вашій власній роботі. Я також покажу деякі хитрощі та докладно поясню підхід. Звичайно, я дезінфікував дані та створив фіктивні номери для конфіденційності, але формат та концепції, з якими слід боротися, залишаються незмінними. Ось дорожня карта про те, що ми будемо робити з Пандами:

  1. Налаштуйте середовище та завантажте дані
  2. Дослідіть дані
  3. Проаналізуйте різні вкладки даних
  4. Стандартизуйте існуючі стовпці та створіть нові
  5. Очистіть дані за допомогою функцій "застосувати" та "лямбда"
  6. Переформатуйте дані із широкого на довгий, здійснюючи повороти на багаторівневих індексах та стекуванні
  7. Об’єднайте та збережіть остаточні результати назад у Excel