Візуалізація відсутніх даних у RW/GGMICE

Під час аналізу даних ми хочемо знати наступні кроки щодо пошуку відсутніх значень, оскільки більшість речей в аналітиці визначається різними факторами. Щоб допомогти вам у цьому, ми візуалізуємо відсутні дані в R за допомогою пакета ggmice . Ви можете переглянути повне відео цього підручника внизу цього блогу .

«Що мені робити з відсутніми значеннями?» Це важливе питання, яке слід задати, коли ви аналізуєте дані. Ми всі сподіваємося, що їх легко знайти, оскільки вони закодовані як null або NA.

Ми розглянемо деякі загальні правила та наступні кроки. Ми навчимося відповідати на такі запитання, як, наприклад, скільки відсутніх даних? Наскільки велика проблема? Чи можемо ми знайти закономірності в даних?

Є багато способів зробити це, але ми збираємося використовувати візуалізацію відсутніх даних у R як перший дослідницький початок.

Зміст

Коли скинути, а коли знайти пропущені значення

Якщо немає закономірності в тому, як вони відсутні, і це впливає на менше ніж 5% спостережень, чи то в стовпці, чи в наборі даних, тоді ви можете видалити ці відсутні значення.

Однак, якщо виявиться, що він більш поширений, і ви можете знайти деякі важливі закономірності на основі візуалізацій, тоді вам, можливо, доведеться щось зробити з цими даними.

Отже, замість того, щоб відкидати їх, ми можемо приписувати їх, оскільки, ймовірно, є історія про те, чому ці значення відсутні в шаблоні, як вони є.

Візуалізація відсутніх даних у RW/GGMICE

У цій демонстрації ми будемо використовувати пакет, який приписуватиме відсутні значення. Це новий пакет для візуалізації відсутніх даних у R і він називається ggmice .

Ідея полягає в тому, щоб знайти шаблон і кількість відсутніх значень, тому ми розглянемо шаблон графіка , а потім матрицю предиктора графіка .

MICE розшифровується як багатовимірна імпутація ланцюжковими методами . Ми не вникаємо в механіку, але ми дізнаємося, як цей алгоритм буде імпутувати наші дані, якщо ми його використаємо.

Інша річ, яку слід знати про візуалізацію відсутніх даних у R за допомогою ggmice, полягає в тому, що вона справді призначена для сумісності з ggplot2 , тому ми можемо створювати деякі візуалізації на основі відомого пакета візуалізації. 

Візуалізація відсутніх даних у RW/GGMICE

Етапи візуалізації відсутніх даних у R w/GGMICE

Давайте продовжимо завантаження. Перше, що нам потрібно зробити, це імпортувати всі потрібні пакети, ввівши бібліотеку (ggmice) , бібліотеку (tidyverse) , яка включає ggplot2, і бібліотеку (Ecdat) наборів даних.

Пакет бібліотеки (Ecdat) містить багато хороших наборів даних для практики. Тому ми його використовуємо та імпортуємо.

Візуалізація відсутніх даних у RW/GGMICE

Одним із наборів даних є допомога (MCAS) . Давайте запустимо для цього функцію довідки.

Як ми бачимо, це з Ecdat, і це набір результатів тестування. Ця довідкова документація описує кожен із стовпців і розповідає про те, звідки він узявся.

Ми збираємося використовувати це, щоб дізнатися, чи є відсутні дані та який шаблон вони утворюють, якщо такі є.

Візуалізація відсутніх даних у RW/GGMICE

Скористаємося is.na (MCAS) і клацнемо «Виконати» . Як ми бачимо, є купа ІСТИНИ і ЛОЖІ. Що ми можемо зробити, це підсумувати їх за допомогою функції colSums (is.na(MCAS)), оскільки FALSE та TRUE дорівнюють нулю та одиниці. Це наш спосіб перевірити, чи значення відсутнє чи ні.

Візуалізація відсутніх даних у RW/GGMICE

Як показано нижче, відсутні значення знаходяться в трьох стовпцях, таких як spc , totsc8 і avgsalary . Опис цих стовпців можна переглянути в розділі довідкової документації.

Візуалізація відсутніх даних у RW/GGMICE

Крім того, за допомогою colSums (is.na(MCAS)) / nrow (MCAS) кількість рядків перетвориться на відсотки. Це один із способів поглянути на це, але не найпростіший.

Візуалізація відсутніх даних у RW/GGMICE

У цьому випадку давайте подивимося, що ggmice може зробити для нас. Ми використаємо функцію browseVignettes (package = 'ggmice') , а потім клацнемо «Запустити» .

Візуалізація відсутніх даних у RW/GGMICE

Для цієї функції знайдено декілька віньєток, тож давайте виберемо ggmice та клацнемо посилання HTML , щоб переглянути кілька корисних посібників, які можуть допомогти.

Візуалізація відсутніх даних у RW/GGMICE

Візуалізація відсутніх даних у RW/GGMICE

Повертаючись до сценарію, скористаємося функцією plot_pattern (MCAS) для передачі набору даних.

Візуалізація відсутніх даних у RW/GGMICE

Для кращого візуалізації натисніть кнопку Збільшити . Як показано, зі 155 спостережень spc має 9 відсутніх значень, 25 для avgsalary і 40 для totsc8 .

Ми спробуємо з’ясувати, чи збігається щось із цього, скільки їх і чи схильні вони бути в кластері.

Візуалізація відсутніх даних у RW/GGMICE

Щоб перевірити це, ми можемо спробувати аналоговий спосіб, використовуючи функцію перегляду (MCAS) , а потім натиснувши Виконати .

Візуалізація відсутніх даних у RW/GGMICE

Це свого роду засіб перегляду електронних таблиць, де ми можемо побачити всі відсутні значення. Ми також можемо розгорнути це, натиснувши кнопку Редактор вихідного коду .

Візуалізація відсутніх даних у RW/GGMICE

Подібно до , ми можемо побачити загальну кількість записів, а NA є відсутніми значеннями. Примітно, що загальна кількість записів у поданні (MCAS) становить 220 і лише 155 для plot_pattern (MCAS), оскільки, ймовірно, існували повні значення, які самі по собі не були нанесені на графік.

Крім того, ми бачимо, що вони мають тенденцію об’єднуватися разом на основі змінних і рядків. Однак у багатьох випадках бракує лише одного чи іншого. Реальність полягає в тому, що важко робити це візуальне зображення ряд за рядом, тож саме тут з’являється візуалізація.

Візуалізація відсутніх даних у RW/GGMICE

Врахування відсутніх даних

Наступне, що потрібно зробити, це повернутися до нашого сценарію, потім ввести nrow (MCAS) , а потім sum(is.na(MCAS)$totsc8)) .

У цьому випадку ми знаємо, що 40 відсутні значення з 200 спостережень. Давайте використаємо R як калькулятор, поставивши 40/200. Тому ми маємо близько 20% відсутніх значень, що дуже багато.

В ідеалі ми хочемо знати, чому так багато зниклих. Можливо, це просто спосіб збору даних, тому ми можемо це приписати.

Візуалізація відсутніх даних у RW/GGMICE

Для цього давайте імпортуємо пакет бібліотеки (миші) . Це один із методів імпутації.

Візуалізація відсутніх даних у RW/GGMICE

Потім скористаємося функціями MCAS_pred < –="" quickpred=""> і plot_pred(MCAS_pred) . Переконайтеся, що ви зберегли їх, натисніть «Виконати» та натисніть кнопку «Збільшити» .

Візуалізація відсутніх даних у RW/GGMICE

Якщо ми використовуємо багатовимірне імпутування, цей алгоритм знайде спостереження та точки даних, подібні до тих, яких немає, а потім спробує заповнити їх.

Наприклад, стовпці spc . Це буде корисно для передбачення відсутніх значень, як і для totsc8 і avgsalary . На даний момент ми цього не робимо, але ми бачимо, які значення та змінні пов’язані, що може бути корисним для перешкоджання цим значенням.

Візуалізація відсутніх даних у RW/GGMICE

Давайте спробуємо ще одну річ. Ми збираємося використовувати ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point () , а потім клацніть Run .

Це , за винятком того, що ми використовуємо ggmice. По суті, ідея полягає в тому, що ми можемо побачити зв’язок між цими двома змінними, які мають досить багато відсутніх значень. Коли одна з них відсутня, а інша доступна, ми можемо побачити, де знаходяться ці точки.

У цій ситуації обидва вони спостерігаються в одному з цих випадків. Одного немає, а іншого немає. Якщо обидва відсутні, це не буде на сюжеті.

Візуалізація відсутніх даних у RW/GGMICE




Висновок

Коли ми працюємо з відсутніми значеннями, виникає спокуса використовувати такий алгоритм, як MICE, оскільки він дуже потужний для імпутування значень. Однак краще самостійно вивчити дані і зрозуміти, що відбувається.

В ідеалі, якщо у нас є багато відсутніх даних, ми хочемо з’ясувати, чому, і, можливо, ми можемо спробувати отримати додаткові дані або ми можемо приписати їх. Завжди краще звертатися безпосередньо до джерела.

Якщо врешті-решт ми захочемо імпутувати відсутні значення, ми можемо застосувати кілька простих методів імпутації за допомогою пакета tidyverse, наприклад середнього або медіани.

Без сумніву, пакет MICE є потужним. Це може бути надмірно для речей, які потребують дуже багато обчислень, але зараз ми зосереджені лише на елементі візуалізації.

Сподіваюся, ви щось дізнаєтесь і можете сміливо використовувати цей пакет. Обов’язково поділіться ним і спробуйте розповісти про нього, оскільки це гарний пакет для роботи з відсутніми значеннями, сумісними з ggplot2.

Все найкраще,

Джордж


Вирішіть задачу аналізу даних за допомогою прискорювача LuckyTemplates

Вирішіть задачу аналізу даних за допомогою прискорювача LuckyTemplates

Відточіть свої навички розробки звітів, приєднавшись до змагання з аналізу даних. Прискорювач може допомогти вам стати суперкористувачем LuckyTemplates!

Підсумки в LuckyTemplates за допомогою DAX

Підсумки в LuckyTemplates за допомогою DAX

Дізнайтеся, як обчислювати поточні підсумки в LuckyTemplates за допомогою DAX. Поточні підсумки дозволяють вам не потрапити в окремий результат.

Змінні LuckyTemplates Dax постійні: що це означає?

Змінні LuckyTemplates Dax постійні: що це означає?

Зрозумійте концепцію змінних у DAX у LuckyTemplates і значення змінних для обчислення показників.

Діаграма нахилу LuckyTemplates: огляд

Діаграма нахилу LuckyTemplates: огляд

Дізнайтеся більше про настроюваний візуал під назвою LuckyTemplates Slope chart, який використовується для показу зростання/зменшення для одного чи кількох показників.

Колірні теми LuckyTemplates для однорідної візуалізації

Колірні теми LuckyTemplates для однорідної візуалізації

Відкрийте для себе кольорові теми в LuckyTemplates. Це необхідно для того, щоб ваші звіти та візуалізації виглядали та працювали без проблем.

Обчислення середнього значення в LuckyTemplates: виділення результатів у будні чи вихідні за допомогою DAX

Обчислення середнього значення в LuckyTemplates: виділення результатів у будні чи вихідні за допомогою DAX

Розрахувати середнє значення в LuckyTemplates можна кількома способами, щоб отримати точну інформацію для ваших бізнес-звітів.

Шаблони LuckyTemplates | Стандартне оформлення робочого столу LuckyTemplates

Шаблони LuckyTemplates | Стандартне оформлення робочого столу LuckyTemplates

Давайте заглибимося в стандартну тематику LuckyTemplates і розглянемо деякі функції, вбудовані в саму програму LuckyTemplates Desktop.

Візуальна карта LuckyTemplates: як створити та додати спеціальну легенду в LuckyTemplates

Візуальна карта LuckyTemplates: як створити та додати спеціальну легенду в LuckyTemplates

У цьому підручнику ви дізнаєтесь, як створити спеціальну легенду у візуальній карті LuckyTemplates для відображення бажаних кольорів і сегментації.

Фонове зображення LuckyTemplates для звітів із використанням PPT

Фонове зображення LuckyTemplates для звітів із використанням PPT

Дізнайтеся, як налаштувати фонове зображення LuckyTemplates за допомогою PowerPoint. Це одна з моїх технік створення звітів LuckyTemplates.

Модель та аналіз рішень щодо закупівель у LuckyTemplates

Модель та аналіз рішень щодо закупівель у LuckyTemplates

У цьому підручнику ми збираємося зануритися в аналіз закупівель в організації, використовуючи функцію взаємодії та потужність моделі даних.