Як будівельний блок для ваших звітів Excel, дані в моделях даних мають бути належним чином структуровані. Не всі набори даних створені однаково. Хоча деякі набори даних працюють у стандартному середовищі Excel, вони можуть не працювати для цілей моделювання даних. Перш ніж створювати модель даних, переконайтеся, що вихідні дані мають належну структуру для цілей інформаційної панелі.
Під ризиком надмірного спрощення набори даних, які зазвичай використовуються в Excel, мають три основні форми:
Головне, що лише плоскі файли даних і табличні набори даних створюють ефективні моделі даних.
Звіти з електронними таблицями створюють неефективні моделі даних
Звіти з електронними таблицями відображають високоформатовані узагальнені дані і часто створюються як інструменти презентації для керівних або виконавчих користувачів. У типовому звіті з електронними таблицями розумно використовується порожній простір для форматування, повторюються дані з естетичними цілями і представлений лише високорівневий аналіз. Наступний малюнок ілюструє звіт електронної таблиці.
Звіт з електронною таблицею.
Хоча звіт з електронною таблицею може виглядати добре, він не є ефективною моделлю даних. Чому? Основна причина полягає в тому, що ці звіти не пропонують розділення даних, аналізу та презентації. Ви по суті зациклені на одному аналізі.
Хоча ви можете створити діаграми з показаного звіту, було б непрактично застосовувати будь-який аналіз за межами того, що вже є. Наприклад, як би ви розрахували та представили середнє значення всіх продажів велосипедів за допомогою цього звіту? Як би ви розрахували список десяти найбільш ефективних ринків?
Завдяки такому налаштуванню ви змушені виконувати дуже ручні процеси, які важко підтримувати місяць за місяцем. Будь-який аналіз за межами високорівневих, уже зазначених у звіті, є в кращому випадку базовим — навіть із вигадливими формулами. Крім того, що відбувається, коли від вас вимагається показати продажі велосипедів за місяцями? Коли ваша модель даних вимагає аналізу з даними, яких немає у звіті електронної таблиці, вам доведеться шукати інший набір даних.
Плоскі файли даних чудово підходять для моделей даних
Іншим типом формату файлу є плоский файл. Плоскі файли – це сховища даних, організовані за рядками та стовпцями. Кожен рядок відповідає набору елементів даних або запису. Кожен стовпець є полем. Поле відповідає унікальному елементу даних у записі. На наступному малюнку містяться ті самі дані, що й у попередньому звіті, але виражені у плоскому форматі файлу даних.
Плоский файл даних.
Зверніть увагу, що кожне поле даних має стовпець, і кожен стовпець відповідає одному елементу даних. Крім того, немає зайвих пробілів, і кожен рядок (або запис) відповідає унікальному набору інформації. Але ключовим атрибутом, який робить цей файл плоским, є те, що жодне поле однозначно не ідентифікує запис. Фактично, вам потрібно буде вказати чотири окремі поля (регіон, ринок, бізнес-сегмент і місячний обсяг продажів), перш ніж ви зможете однозначно ідентифікувати запис.
Плоскі файли чудово підходять для моделювання даних у Excel, оскільки вони можуть бути достатньо деталізованими, щоб зберігати потрібні дані, і при цьому сприяти широкому спектру аналізу за допомогою простих формул — SUM, AVERAGE, VLOOKUP та SUMIF, і це лише кілька. .
Табличні набори даних ідеально підходять для моделей даних на основі зведеної таблиці
Багато ефективних моделей даних керуються головним чином зведеними таблицями. Зведені таблиці є головними інструментами аналізу Excel. Для тих із вас, хто користувався зведеними таблицями, ви знаєте, що вони пропонують чудовий спосіб узагальнення та формування даних для використання компонентами звітності, такими як діаграми та таблиці.
Табличні набори даних ідеально підходять для моделей даних на основі зведеної таблиці. Наступний малюнок ілюструє табличний набір даних. Зауважте, що основна відмінність між табличним набором даних і плоским файлом даних полягає в тому, що в табличних наборах даних мітки стовпців не подвоюються як фактичні дані. Наприклад, стовпець Період продажу містить ідентифікатор місяця. Ця тонка відмінність у структурі робить табличні набори даних оптимальними джерелами даних для зведених таблиць. Ця структура гарантує, що ключові функції зведеної таблиці, такі як сортування та групування, працюють належним чином.
Табличний набір даних.
Атрибути табличного набору даних такі:
-
Перший рядок набору даних містить мітки полів, які описують інформацію в кожному стовпці.
-
Мітки стовпців не мають подвійного обов’язку як елементи даних, які можна використовувати як фільтри або критерії запиту (наприклад, місяці, дати, роки, регіони чи ринки).
-
Немає порожніх рядків чи стовпців — кожен стовпець має заголовок, а значення міститься в кожному рядку.
-
Кожен стовпець представляє унікальну категорію даних.
-
Кожен рядок представляє окремі елементи в кожному стовпці.