Вирішіть задачу аналізу даних за допомогою прискорювача LuckyTemplates
Відточіть свої навички розробки звітів, приєднавшись до змагання з аналізу даних. Прискорювач може допомогти вам стати суперкористувачем LuckyTemplates!
Під час аналізу даних ми хочемо знати наступні кроки щодо пошуку відсутніх значень, оскільки більшість речей в аналітиці визначається різними факторами. Щоб допомогти вам у цьому, ми візуалізуємо відсутні дані в R за допомогою пакета ggmice . Ви можете переглянути повне відео цього підручника внизу цього блогу .
«Що мені робити з відсутніми значеннями?» Це важливе питання, яке слід задати, коли ви аналізуєте дані. Ми всі сподіваємося, що їх легко знайти, оскільки вони закодовані як null або NA.
Ми розглянемо деякі загальні правила та наступні кроки. Ми навчимося відповідати на такі запитання, як, наприклад, скільки відсутніх даних? Наскільки велика проблема? Чи можемо ми знайти закономірності в даних?
Є багато способів зробити це, але ми збираємося використовувати візуалізацію відсутніх даних у R як перший дослідницький початок.
Зміст
Коли скинути, а коли знайти пропущені значення
Якщо немає закономірності в тому, як вони відсутні, і це впливає на менше ніж 5% спостережень, чи то в стовпці, чи в наборі даних, тоді ви можете видалити ці відсутні значення.
Однак, якщо виявиться, що він більш поширений, і ви можете знайти деякі важливі закономірності на основі візуалізацій, тоді вам, можливо, доведеться щось зробити з цими даними.
Отже, замість того, щоб відкидати їх, ми можемо приписувати їх, оскільки, ймовірно, є історія про те, чому ці значення відсутні в шаблоні, як вони є.
У цій демонстрації ми будемо використовувати пакет, який приписуватиме відсутні значення. Це новий пакет для візуалізації відсутніх даних у R і він називається ggmice .
Ідея полягає в тому, щоб знайти шаблон і кількість відсутніх значень, тому ми розглянемо шаблон графіка , а потім матрицю предиктора графіка .
MICE розшифровується як багатовимірна імпутація ланцюжковими методами . Ми не вникаємо в механіку, але ми дізнаємося, як цей алгоритм буде імпутувати наші дані, якщо ми його використаємо.
Інша річ, яку слід знати про візуалізацію відсутніх даних у R за допомогою ggmice, полягає в тому, що вона справді призначена для сумісності з ggplot2 , тому ми можемо створювати деякі візуалізації на основі відомого пакета візуалізації.
Етапи візуалізації відсутніх даних у R w/GGMICE
Давайте продовжимо завантаження. Перше, що нам потрібно зробити, це імпортувати всі потрібні пакети, ввівши бібліотеку (ggmice) , бібліотеку (tidyverse) , яка включає ggplot2, і бібліотеку (Ecdat) наборів даних.
Пакет бібліотеки (Ecdat) містить багато хороших наборів даних для практики. Тому ми його використовуємо та імпортуємо.
Одним із наборів даних є допомога (MCAS) . Давайте запустимо для цього функцію довідки.
Як ми бачимо, це з Ecdat, і це набір результатів тестування. Ця довідкова документація описує кожен із стовпців і розповідає про те, звідки він узявся.
Ми збираємося використовувати це, щоб дізнатися, чи є відсутні дані та який шаблон вони утворюють, якщо такі є.
Скористаємося is.na (MCAS) і клацнемо «Виконати» . Як ми бачимо, є купа ІСТИНИ і ЛОЖІ. Що ми можемо зробити, це підсумувати їх за допомогою функції colSums (is.na(MCAS)), оскільки FALSE та TRUE дорівнюють нулю та одиниці. Це наш спосіб перевірити, чи значення відсутнє чи ні.
Як показано нижче, відсутні значення знаходяться в трьох стовпцях, таких як spc , totsc8 і avgsalary . Опис цих стовпців можна переглянути в розділі довідкової документації.
Крім того, за допомогою colSums (is.na(MCAS)) / nrow (MCAS) кількість рядків перетвориться на відсотки. Це один із способів поглянути на це, але не найпростіший.
У цьому випадку давайте подивимося, що ggmice може зробити для нас. Ми використаємо функцію browseVignettes (package = 'ggmice') , а потім клацнемо «Запустити» .
Для цієї функції знайдено декілька віньєток, тож давайте виберемо ggmice та клацнемо посилання HTML , щоб переглянути кілька корисних посібників, які можуть допомогти.
Повертаючись до сценарію, скористаємося функцією plot_pattern (MCAS) для передачі набору даних.
Для кращого візуалізації натисніть кнопку Збільшити . Як показано, зі 155 спостережень spc має 9 відсутніх значень, 25 для avgsalary і 40 для totsc8 .
Ми спробуємо з’ясувати, чи збігається щось із цього, скільки їх і чи схильні вони бути в кластері.
Щоб перевірити це, ми можемо спробувати аналоговий спосіб, використовуючи функцію перегляду (MCAS) , а потім натиснувши Виконати .
Це свого роду засіб перегляду електронних таблиць, де ми можемо побачити всі відсутні значення. Ми також можемо розгорнути це, натиснувши кнопку Редактор вихідного коду .
Подібно до , ми можемо побачити загальну кількість записів, а NA є відсутніми значеннями. Примітно, що загальна кількість записів у поданні (MCAS) становить 220 і лише 155 для plot_pattern (MCAS), оскільки, ймовірно, існували повні значення, які самі по собі не були нанесені на графік.
Крім того, ми бачимо, що вони мають тенденцію об’єднуватися разом на основі змінних і рядків. Однак у багатьох випадках бракує лише одного чи іншого. Реальність полягає в тому, що важко робити це візуальне зображення ряд за рядом, тож саме тут з’являється візуалізація.
Врахування відсутніх даних
Наступне, що потрібно зробити, це повернутися до нашого сценарію, потім ввести nrow (MCAS) , а потім sum(is.na(MCAS)$totsc8)) .
У цьому випадку ми знаємо, що 40 відсутні значення з 200 спостережень. Давайте використаємо R як калькулятор, поставивши 40/200. Тому ми маємо близько 20% відсутніх значень, що дуже багато.
В ідеалі ми хочемо знати, чому так багато зниклих. Можливо, це просто спосіб збору даних, тому ми можемо це приписати.
Для цього давайте імпортуємо пакет бібліотеки (миші) . Це один із методів імпутації.
Потім скористаємося функціями MCAS_pred < –="" quickpred=""> і plot_pred(MCAS_pred) . Переконайтеся, що ви зберегли їх, натисніть «Виконати» та натисніть кнопку «Збільшити» .
Якщо ми використовуємо багатовимірне імпутування, цей алгоритм знайде спостереження та точки даних, подібні до тих, яких немає, а потім спробує заповнити їх.
Наприклад, стовпці spc . Це буде корисно для передбачення відсутніх значень, як і для totsc8 і avgsalary . На даний момент ми цього не робимо, але ми бачимо, які значення та змінні пов’язані, що може бути корисним для перешкоджання цим значенням.
Давайте спробуємо ще одну річ. Ми збираємося використовувати ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point () , а потім клацніть Run .
Це , за винятком того, що ми використовуємо ggmice. По суті, ідея полягає в тому, що ми можемо побачити зв’язок між цими двома змінними, які мають досить багато відсутніх значень. Коли одна з них відсутня, а інша доступна, ми можемо побачити, де знаходяться ці точки.
У цій ситуації обидва вони спостерігаються в одному з цих випадків. Одного немає, а іншого немає. Якщо обидва відсутні, це не буде на сюжеті.
Висновок
Коли ми працюємо з відсутніми значеннями, виникає спокуса використовувати такий алгоритм, як MICE, оскільки він дуже потужний для імпутування значень. Однак краще самостійно вивчити дані і зрозуміти, що відбувається.
В ідеалі, якщо у нас є багато відсутніх даних, ми хочемо з’ясувати, чому, і, можливо, ми можемо спробувати отримати додаткові дані або ми можемо приписати їх. Завжди краще звертатися безпосередньо до джерела.
Якщо врешті-решт ми захочемо імпутувати відсутні значення, ми можемо застосувати кілька простих методів імпутації за допомогою пакета tidyverse, наприклад середнього або медіани.
Без сумніву, пакет MICE є потужним. Це може бути надмірно для речей, які потребують дуже багато обчислень, але зараз ми зосереджені лише на елементі візуалізації.
Сподіваюся, ви щось дізнаєтесь і можете сміливо використовувати цей пакет. Обов’язково поділіться ним і спробуйте розповісти про нього, оскільки це гарний пакет для роботи з відсутніми значеннями, сумісними з ggplot2.
Все найкраще,
Джордж
Відточіть свої навички розробки звітів, приєднавшись до змагання з аналізу даних. Прискорювач може допомогти вам стати суперкористувачем LuckyTemplates!
Дізнайтеся, як обчислювати поточні підсумки в LuckyTemplates за допомогою DAX. Поточні підсумки дозволяють вам не потрапити в окремий результат.
Зрозумійте концепцію змінних у DAX у LuckyTemplates і значення змінних для обчислення показників.
Дізнайтеся більше про настроюваний візуал під назвою LuckyTemplates Slope chart, який використовується для показу зростання/зменшення для одного чи кількох показників.
Відкрийте для себе кольорові теми в LuckyTemplates. Це необхідно для того, щоб ваші звіти та візуалізації виглядали та працювали без проблем.
Розрахувати середнє значення в LuckyTemplates можна кількома способами, щоб отримати точну інформацію для ваших бізнес-звітів.
Давайте заглибимося в стандартну тематику LuckyTemplates і розглянемо деякі функції, вбудовані в саму програму LuckyTemplates Desktop.
У цьому підручнику ви дізнаєтесь, як створити спеціальну легенду у візуальній карті LuckyTemplates для відображення бажаних кольорів і сегментації.
Дізнайтеся, як налаштувати фонове зображення LuckyTemplates за допомогою PowerPoint. Це одна з моїх технік створення звітів LuckyTemplates.
У цьому підручнику ми збираємося зануритися в аналіз закупівель в організації, використовуючи функцію взаємодії та потужність моделі даних.