Повна стаття Організація даних у електронних таблицях

Стаття

  • Повна стаття
  • Цифри та дані
  • Список літератури
  • Цитати
  • Метрики
  • Ліцензування
  • Передруки та дозволи
  • PDF

АНОТАЦІЯ

Електронні таблиці - широко використовувані програмні засоби для введення, зберігання, аналізу та візуалізації даних. Зосереджуючись на аспектах введення та зберігання даних, ця стаття пропонує практичні рекомендації щодо організації даних електронних таблиць для зменшення помилок та спрощення подальшого аналізу. Основними принципами є: будьте послідовними, запишіть дати, такі як РРРР-ММ-ДД, не залишайте жодних комірок порожніми, помістіть лише одну річ у клітинку, впорядкуйте дані як єдиний прямокутник (з темами як рядки та змінні як стовпці, і з одним рядком заголовка), створіть словник даних, не включайте обчислення у файли необроблених даних, не використовуйте колір шрифту або виділення як дані, вибирайте добрі імена для речей, робіть резервні копії, використовуйте перевірку даних, щоб уникнути помилок введення даних, і збережіть дані у простих текстових файлах.

електронних

1. Вступ

Електронні таблиці, незважаючи на всю їх повсякденну прямокутність, десятиліттями викликали гнів та суперечки. Деякі автори зазначають, що «справжні програмісти не використовують електронні таблиці» і що ми повинні «зупинити цю диверсійну електронну таблицю» (Казимир 1992; Чадвік 2003). Інші порадили дослідникам, як використовувати електронні таблиці для підвищення їх продуктивності (Wagner and Keisler 2006). На тлі цих дебатів електронні таблиці продовжували відігравати значну роль у робочих процесах дослідників, і очевидно, що вони є цінним інструментом, від якого дослідники навряд чи повністю відмовляться.

Однак небезпека електронних таблиць реальна - настільки, що Європейська група інтересів електронних таблиць веде публічний архів електронних таблиць "страшилок" (http://www.eusprig.org/horror-stories.htm). Багато дослідників вивчали рівень помилок у електронних таблицях, і Панко (2008) повідомив, що в 13 аудитах реальних електронних таблиць в середньому 88% містили помилки. Популярні програми електронних таблиць також роблять певні типи помилок легкими у вчиненні та важкими для виправлення. Microsoft Excel перетворює деякі імена генів на дати і зберігає дати по-різному між операційними системами, що може спричинити проблеми при подальшому аналізі (Zeeberg et al. 2004; Woo 2014). Дослідники, які використовують електронні таблиці, повинні знати про ці типові помилки та розробляти електронні таблиці, які є акуратними, послідовними та якомога стійкішими до помилок.

Електронні таблиці часто використовуються як багатоцільовий інструмент для введення, зберігання, аналізу та візуалізації даних. Більшість програм електронних таблиць дозволяють користувачам виконувати всі ці завдання, однак ми вважаємо, що електронні таблиці найкраще підходять для введення та зберігання даних, і що аналіз та візуалізація повинні відбуватися окремо. Аналіз та візуалізація даних в окремій програмі або, принаймні, в окремій копії файлу даних, зменшує ризик забруднення або знищення вихідних даних у таблиці.

Муррелл (2013) порівняв дані, відформатовані для перегляду людьми на око, з даними, відформатованими для комп'ютера. Він навів розширений приклад комп'ютерного коду для вилучення даних із набору файлів зі складними механізмами. Важливо, щоб аналітики даних мали можливість працювати з такими складними файлами даних. Але якщо початкове розташування файлів даних планується з урахуванням комп’ютера, подальший процес аналізу спрощується.

У цій статті ми пропонуємо практичні рекомендації щодо організації електронних таблиць таким чином, щоб їх могли читати як люди, так і комп’ютерні програми. Дотримуючись цієї поради, дослідники створюватимуть електронні таблиці, які менш схильні до помилок, простіші для обробки комп’ютерами та простіші для обміну з співавторами та громадськістю. Електронні таблиці, які відповідають нашим рекомендаціям, будуть добре працювати з акуратними інструментами та відтворюваними методами, описаними в інших місцях цієї колекції, і становитимуть основу надійного та відтворюваного аналітичного робочого процесу.