Візуалізація відсутніх даних у RW/GGMICE

Під час аналізу даних ми хочемо знати наступні кроки щодо пошуку відсутніх значень, оскільки більшість речей в аналітиці визначається різними факторами. Щоб допомогти вам у цьому, ми візуалізуємо відсутні дані в R за допомогою пакета ggmice . Ви можете переглянути повне відео цього підручника внизу цього блогу .

«Що мені робити з відсутніми значеннями?» Це важливе питання, яке слід задати, коли ви аналізуєте дані. Ми всі сподіваємося, що їх легко знайти, оскільки вони закодовані як null або NA.

Ми розглянемо деякі загальні правила та наступні кроки. Ми навчимося відповідати на такі запитання, як, наприклад, скільки відсутніх даних? Наскільки велика проблема? Чи можемо ми знайти закономірності в даних?

Є багато способів зробити це, але ми збираємося використовувати візуалізацію відсутніх даних у R як перший дослідницький початок.

Зміст

Коли скинути, а коли знайти пропущені значення

Якщо немає закономірності в тому, як вони відсутні, і це впливає на менше ніж 5% спостережень, чи то в стовпці, чи в наборі даних, тоді ви можете видалити ці відсутні значення.

Однак, якщо виявиться, що він більш поширений, і ви можете знайти деякі важливі закономірності на основі візуалізацій, тоді вам, можливо, доведеться щось зробити з цими даними.

Отже, замість того, щоб відкидати їх, ми можемо приписувати їх, оскільки, ймовірно, є історія про те, чому ці значення відсутні в шаблоні, як вони є.

Візуалізація відсутніх даних у RW/GGMICE

У цій демонстрації ми будемо використовувати пакет, який приписуватиме відсутні значення. Це новий пакет для візуалізації відсутніх даних у R і він називається ggmice .

Ідея полягає в тому, щоб знайти шаблон і кількість відсутніх значень, тому ми розглянемо шаблон графіка , а потім матрицю предиктора графіка .

MICE розшифровується як багатовимірна імпутація ланцюжковими методами . Ми не вникаємо в механіку, але ми дізнаємося, як цей алгоритм буде імпутувати наші дані, якщо ми його використаємо.

Інша річ, яку слід знати про візуалізацію відсутніх даних у R за допомогою ggmice, полягає в тому, що вона справді призначена для сумісності з ggplot2 , тому ми можемо створювати деякі візуалізації на основі відомого пакета візуалізації. 

Візуалізація відсутніх даних у RW/GGMICE

Етапи візуалізації відсутніх даних у R w/GGMICE

Давайте продовжимо завантаження. Перше, що нам потрібно зробити, це імпортувати всі потрібні пакети, ввівши бібліотеку (ggmice) , бібліотеку (tidyverse) , яка включає ggplot2, і бібліотеку (Ecdat) наборів даних.

Пакет бібліотеки (Ecdat) містить багато хороших наборів даних для практики. Тому ми його використовуємо та імпортуємо.

Візуалізація відсутніх даних у RW/GGMICE

Одним із наборів даних є допомога (MCAS) . Давайте запустимо для цього функцію довідки.

Як ми бачимо, це з Ecdat, і це набір результатів тестування. Ця довідкова документація описує кожен із стовпців і розповідає про те, звідки він узявся.

Ми збираємося використовувати це, щоб дізнатися, чи є відсутні дані та який шаблон вони утворюють, якщо такі є.

Візуалізація відсутніх даних у RW/GGMICE

Скористаємося is.na (MCAS) і клацнемо «Виконати» . Як ми бачимо, є купа ІСТИНИ і ЛОЖІ. Що ми можемо зробити, це підсумувати їх за допомогою функції colSums (is.na(MCAS)), оскільки FALSE та TRUE дорівнюють нулю та одиниці. Це наш спосіб перевірити, чи значення відсутнє чи ні.

Візуалізація відсутніх даних у RW/GGMICE

Як показано нижче, відсутні значення знаходяться в трьох стовпцях, таких як spc , totsc8 і avgsalary . Опис цих стовпців можна переглянути в розділі довідкової документації.

Візуалізація відсутніх даних у RW/GGMICE

Крім того, за допомогою colSums (is.na(MCAS)) / nrow (MCAS) кількість рядків перетвориться на відсотки. Це один із способів поглянути на це, але не найпростіший.

Візуалізація відсутніх даних у RW/GGMICE

У цьому випадку давайте подивимося, що ggmice може зробити для нас. Ми використаємо функцію browseVignettes (package = 'ggmice') , а потім клацнемо «Запустити» .

Візуалізація відсутніх даних у RW/GGMICE

Для цієї функції знайдено декілька віньєток, тож давайте виберемо ggmice та клацнемо посилання HTML , щоб переглянути кілька корисних посібників, які можуть допомогти.

Візуалізація відсутніх даних у RW/GGMICE

Візуалізація відсутніх даних у RW/GGMICE

Повертаючись до сценарію, скористаємося функцією plot_pattern (MCAS) для передачі набору даних.

Візуалізація відсутніх даних у RW/GGMICE

Для кращого візуалізації натисніть кнопку Збільшити . Як показано, зі 155 спостережень spc має 9 відсутніх значень, 25 для avgsalary і 40 для totsc8 .

Ми спробуємо з’ясувати, чи збігається щось із цього, скільки їх і чи схильні вони бути в кластері.

Візуалізація відсутніх даних у RW/GGMICE

Щоб перевірити це, ми можемо спробувати аналоговий спосіб, використовуючи функцію перегляду (MCAS) , а потім натиснувши Виконати .

Візуалізація відсутніх даних у RW/GGMICE

Це свого роду засіб перегляду електронних таблиць, де ми можемо побачити всі відсутні значення. Ми також можемо розгорнути це, натиснувши кнопку Редактор вихідного коду .

Візуалізація відсутніх даних у RW/GGMICE

Подібно до , ми можемо побачити загальну кількість записів, а NA є відсутніми значеннями. Примітно, що загальна кількість записів у поданні (MCAS) становить 220 і лише 155 для plot_pattern (MCAS), оскільки, ймовірно, існували повні значення, які самі по собі не були нанесені на графік.

Крім того, ми бачимо, що вони мають тенденцію об’єднуватися разом на основі змінних і рядків. Однак у багатьох випадках бракує лише одного чи іншого. Реальність полягає в тому, що важко робити це візуальне зображення ряд за рядом, тож саме тут з’являється візуалізація.

Візуалізація відсутніх даних у RW/GGMICE

Врахування відсутніх даних

Наступне, що потрібно зробити, це повернутися до нашого сценарію, потім ввести nrow (MCAS) , а потім sum(is.na(MCAS)$totsc8)) .

У цьому випадку ми знаємо, що 40 відсутні значення з 200 спостережень. Давайте використаємо R як калькулятор, поставивши 40/200. Тому ми маємо близько 20% відсутніх значень, що дуже багато.

В ідеалі ми хочемо знати, чому так багато зниклих. Можливо, це просто спосіб збору даних, тому ми можемо це приписати.

Візуалізація відсутніх даних у RW/GGMICE

Для цього давайте імпортуємо пакет бібліотеки (миші) . Це один із методів імпутації.

Візуалізація відсутніх даних у RW/GGMICE

Потім скористаємося функціями MCAS_pred < –="" quickpred=""> і plot_pred(MCAS_pred) . Переконайтеся, що ви зберегли їх, натисніть «Виконати» та натисніть кнопку «Збільшити» .

Візуалізація відсутніх даних у RW/GGMICE

Якщо ми використовуємо багатовимірне імпутування, цей алгоритм знайде спостереження та точки даних, подібні до тих, яких немає, а потім спробує заповнити їх.

Наприклад, стовпці spc . Це буде корисно для передбачення відсутніх значень, як і для totsc8 і avgsalary . На даний момент ми цього не робимо, але ми бачимо, які значення та змінні пов’язані, що може бути корисним для перешкоджання цим значенням.

Візуалізація відсутніх даних у RW/GGMICE

Давайте спробуємо ще одну річ. Ми збираємося використовувати ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point () , а потім клацніть Run .

Це , за винятком того, що ми використовуємо ggmice. По суті, ідея полягає в тому, що ми можемо побачити зв’язок між цими двома змінними, які мають досить багато відсутніх значень. Коли одна з них відсутня, а інша доступна, ми можемо побачити, де знаходяться ці точки.

У цій ситуації обидва вони спостерігаються в одному з цих випадків. Одного немає, а іншого немає. Якщо обидва відсутні, це не буде на сюжеті.

Візуалізація відсутніх даних у RW/GGMICE




Висновок

Коли ми працюємо з відсутніми значеннями, виникає спокуса використовувати такий алгоритм, як MICE, оскільки він дуже потужний для імпутування значень. Однак краще самостійно вивчити дані і зрозуміти, що відбувається.

В ідеалі, якщо у нас є багато відсутніх даних, ми хочемо з’ясувати, чому, і, можливо, ми можемо спробувати отримати додаткові дані або ми можемо приписати їх. Завжди краще звертатися безпосередньо до джерела.

Якщо врешті-решт ми захочемо імпутувати відсутні значення, ми можемо застосувати кілька простих методів імпутації за допомогою пакета tidyverse, наприклад середнього або медіани.

Без сумніву, пакет MICE є потужним. Це може бути надмірно для речей, які потребують дуже багато обчислень, але зараз ми зосереджені лише на елементі візуалізації.

Сподіваюся, ви щось дізнаєтесь і можете сміливо використовувати цей пакет. Обов’язково поділіться ним і спробуйте розповісти про нього, оскільки це гарний пакет для роботи з відсутніми значеннями, сумісними з ggplot2.

Все найкраще,

Джордж


Змініть формати дати за допомогою редактора Power Query

Змініть формати дати за допомогою редактора Power Query

У цьому посібнику ви дізнаєтеся, як перетворити текст у формат дати за допомогою редактора Power Query в LuckyTemplates.

Power Query: об’єднайте файли з кількох папок

Power Query: об’єднайте файли з кількох папок

Дізнайтеся, як об’єднати файли з кількох папок у мережі, робочому столі, OneDrive або SharePoint за допомогою Power Query.

Обчисліть місячне ковзне середнє з початку року (з початку року) у LuckyTemplates

Обчисліть місячне ковзне середнє з початку року (з початку року) у LuckyTemplates

Цей підручник пояснює, як обчислити місячне ковзне середнє на базі даних з початку року за допомогою функцій AVERAGEX, TOTALYTD та FILTER у LuckyTemplates.

Створення таблиці дат у LuckyTemplates

Створення таблиці дат у LuckyTemplates

Дізнайтеся, чому важлива спеціальна таблиця дат у LuckyTemplates, і вивчіть найшвидший і найефективніший спосіб це зробити.

Мобільні звіти LuckyTemplates. Поради та методи

Мобільні звіти LuckyTemplates. Поради та методи

У цьому короткому посібнику розповідається про функцію мобільних звітів LuckyTemplates. Я збираюся показати вам, як ви можете ефективно створювати звіти для мобільних пристроїв.

Звіти про професійну аналітику послуг у LuckyTemplates

Звіти про професійну аналітику послуг у LuckyTemplates

У цій презентації LuckyTemplates ми розглянемо звіти, що демонструють професійну аналітику послуг від фірми, яка має кілька контрактів і залучених клієнтів.

Оновлення Microsoft Power Platform | Microsoft Ignite 2021

Оновлення Microsoft Power Platform | Microsoft Ignite 2021

Ознайомтеся з основними оновленнями для Power Apps і Power Automate, а також їх перевагами та наслідками для Microsoft Power Platform.

Загальні функції SQL: огляд

Загальні функції SQL: огляд

Відкрийте для себе деякі поширені функції SQL, які ми можемо використовувати, наприклад String, Date і деякі розширені функції для обробки та маніпулювання даними.

Створення шаблону LuckyTemplates: керівництво та поради

Створення шаблону LuckyTemplates: керівництво та поради

У цьому підручнику ви дізнаєтеся, як створити свій ідеальний шаблон LuckyTemplates, налаштований відповідно до ваших потреб і вподобань.

Параметри полів і малі кратні в LuckyTemplates

Параметри полів і малі кратні в LuckyTemplates

У цьому блозі ми продемонструємо, як шарувати параметри поля з малими кратними, щоб створити неймовірно корисну інформацію та візуальні ефекти.