Сім чистих кроків для переробки даних за допомогою Pandas або як я використовую Python там, де Excel не вдається, Tich
Тіч Мангоно
17 листопада 2017 · 10 хв читання
Кілька тижнів тому колега надіслав мені електронну таблицю з даними про втручання в галузі охорони здоров'я, що складається з багатьох вкладок, по одній вкладці на організацію. Завданням було розробити гнучку інформаційну панель для вивчення цих даних. Проблема полягала в тому, що дані були в широкому форматі, але нам потрібен був довгий формат. Раніше це було б лише черговим завданням копіювання та вставлення та іншими жахливо довгими та повторюваними завданнями, але я вирішив використати бібліотеку Pandas Python для автоматизації цього завдання, тому я взявся за розробку сценарію. Протягом 30 хвилин у мене був гнучкий код для багаторазового використання, який згодом заощадив години непотрібної ручної праці!

Я хотів би поділитися з вами своїм процесом на випадок, якщо він з’явиться у вашій власній роботі. Я також покажу деякі хитрощі та докладно поясню підхід. Звичайно, я дезінфікував дані та створив фіктивні номери для конфіденційності, але формат та концепції, з якими слід боротися, залишаються незмінними. Ось дорожня карта про те, що ми будемо робити з Пандами:
- Налаштуйте середовище та завантажте дані
- Дослідіть дані
- Проаналізуйте різні вкладки даних
- Стандартизуйте існуючі стовпці та створіть нові
- Очистіть дані за допомогою функцій "застосувати" та "лямбда"
- Переформатуйте дані із широкого на довгий, здійснюючи повороти на багаторівневих індексах та стекуванні
- Об’єднайте та збережіть остаточні результати назад у Excel