Змініть формати дати за допомогою редактора Power Query
У цьому посібнику ви дізнаєтеся, як перетворити текст у формат дати за допомогою редактора Power Query в LuckyTemplates.
Під час аналізу даних ми хочемо знати наступні кроки щодо пошуку відсутніх значень, оскільки більшість речей в аналітиці визначається різними факторами. Щоб допомогти вам у цьому, ми візуалізуємо відсутні дані в R за допомогою пакета ggmice . Ви можете переглянути повне відео цього підручника внизу цього блогу .
«Що мені робити з відсутніми значеннями?» Це важливе питання, яке слід задати, коли ви аналізуєте дані. Ми всі сподіваємося, що їх легко знайти, оскільки вони закодовані як null або NA.
Ми розглянемо деякі загальні правила та наступні кроки. Ми навчимося відповідати на такі запитання, як, наприклад, скільки відсутніх даних? Наскільки велика проблема? Чи можемо ми знайти закономірності в даних?
Є багато способів зробити це, але ми збираємося використовувати візуалізацію відсутніх даних у R як перший дослідницький початок.
Зміст
Коли скинути, а коли знайти пропущені значення
Якщо немає закономірності в тому, як вони відсутні, і це впливає на менше ніж 5% спостережень, чи то в стовпці, чи в наборі даних, тоді ви можете видалити ці відсутні значення.
Однак, якщо виявиться, що він більш поширений, і ви можете знайти деякі важливі закономірності на основі візуалізацій, тоді вам, можливо, доведеться щось зробити з цими даними.
Отже, замість того, щоб відкидати їх, ми можемо приписувати їх, оскільки, ймовірно, є історія про те, чому ці значення відсутні в шаблоні, як вони є.
У цій демонстрації ми будемо використовувати пакет, який приписуватиме відсутні значення. Це новий пакет для візуалізації відсутніх даних у R і він називається ggmice .
Ідея полягає в тому, щоб знайти шаблон і кількість відсутніх значень, тому ми розглянемо шаблон графіка , а потім матрицю предиктора графіка .
MICE розшифровується як багатовимірна імпутація ланцюжковими методами . Ми не вникаємо в механіку, але ми дізнаємося, як цей алгоритм буде імпутувати наші дані, якщо ми його використаємо.
Інша річ, яку слід знати про візуалізацію відсутніх даних у R за допомогою ggmice, полягає в тому, що вона справді призначена для сумісності з ggplot2 , тому ми можемо створювати деякі візуалізації на основі відомого пакета візуалізації.
Етапи візуалізації відсутніх даних у R w/GGMICE
Давайте продовжимо завантаження. Перше, що нам потрібно зробити, це імпортувати всі потрібні пакети, ввівши бібліотеку (ggmice) , бібліотеку (tidyverse) , яка включає ggplot2, і бібліотеку (Ecdat) наборів даних.
Пакет бібліотеки (Ecdat) містить багато хороших наборів даних для практики. Тому ми його використовуємо та імпортуємо.
Одним із наборів даних є допомога (MCAS) . Давайте запустимо для цього функцію довідки.
Як ми бачимо, це з Ecdat, і це набір результатів тестування. Ця довідкова документація описує кожен із стовпців і розповідає про те, звідки він узявся.
Ми збираємося використовувати це, щоб дізнатися, чи є відсутні дані та який шаблон вони утворюють, якщо такі є.
Скористаємося is.na (MCAS) і клацнемо «Виконати» . Як ми бачимо, є купа ІСТИНИ і ЛОЖІ. Що ми можемо зробити, це підсумувати їх за допомогою функції colSums (is.na(MCAS)), оскільки FALSE та TRUE дорівнюють нулю та одиниці. Це наш спосіб перевірити, чи значення відсутнє чи ні.
Як показано нижче, відсутні значення знаходяться в трьох стовпцях, таких як spc , totsc8 і avgsalary . Опис цих стовпців можна переглянути в розділі довідкової документації.
Крім того, за допомогою colSums (is.na(MCAS)) / nrow (MCAS) кількість рядків перетвориться на відсотки. Це один із способів поглянути на це, але не найпростіший.
У цьому випадку давайте подивимося, що ggmice може зробити для нас. Ми використаємо функцію browseVignettes (package = 'ggmice') , а потім клацнемо «Запустити» .
Для цієї функції знайдено декілька віньєток, тож давайте виберемо ggmice та клацнемо посилання HTML , щоб переглянути кілька корисних посібників, які можуть допомогти.
Повертаючись до сценарію, скористаємося функцією plot_pattern (MCAS) для передачі набору даних.
Для кращого візуалізації натисніть кнопку Збільшити . Як показано, зі 155 спостережень spc має 9 відсутніх значень, 25 для avgsalary і 40 для totsc8 .
Ми спробуємо з’ясувати, чи збігається щось із цього, скільки їх і чи схильні вони бути в кластері.
Щоб перевірити це, ми можемо спробувати аналоговий спосіб, використовуючи функцію перегляду (MCAS) , а потім натиснувши Виконати .
Це свого роду засіб перегляду електронних таблиць, де ми можемо побачити всі відсутні значення. Ми також можемо розгорнути це, натиснувши кнопку Редактор вихідного коду .
Подібно до , ми можемо побачити загальну кількість записів, а NA є відсутніми значеннями. Примітно, що загальна кількість записів у поданні (MCAS) становить 220 і лише 155 для plot_pattern (MCAS), оскільки, ймовірно, існували повні значення, які самі по собі не були нанесені на графік.
Крім того, ми бачимо, що вони мають тенденцію об’єднуватися разом на основі змінних і рядків. Однак у багатьох випадках бракує лише одного чи іншого. Реальність полягає в тому, що важко робити це візуальне зображення ряд за рядом, тож саме тут з’являється візуалізація.
Врахування відсутніх даних
Наступне, що потрібно зробити, це повернутися до нашого сценарію, потім ввести nrow (MCAS) , а потім sum(is.na(MCAS)$totsc8)) .
У цьому випадку ми знаємо, що 40 відсутні значення з 200 спостережень. Давайте використаємо R як калькулятор, поставивши 40/200. Тому ми маємо близько 20% відсутніх значень, що дуже багато.
В ідеалі ми хочемо знати, чому так багато зниклих. Можливо, це просто спосіб збору даних, тому ми можемо це приписати.
Для цього давайте імпортуємо пакет бібліотеки (миші) . Це один із методів імпутації.
Потім скористаємося функціями MCAS_pred < –="" quickpred=""> і plot_pred(MCAS_pred) . Переконайтеся, що ви зберегли їх, натисніть «Виконати» та натисніть кнопку «Збільшити» .
Якщо ми використовуємо багатовимірне імпутування, цей алгоритм знайде спостереження та точки даних, подібні до тих, яких немає, а потім спробує заповнити їх.
Наприклад, стовпці spc . Це буде корисно для передбачення відсутніх значень, як і для totsc8 і avgsalary . На даний момент ми цього не робимо, але ми бачимо, які значення та змінні пов’язані, що може бути корисним для перешкоджання цим значенням.
Давайте спробуємо ще одну річ. Ми збираємося використовувати ggmice (MCAS, aes(x=avgsalary, y=totsc8)) + geom_point () , а потім клацніть Run .
Це , за винятком того, що ми використовуємо ggmice. По суті, ідея полягає в тому, що ми можемо побачити зв’язок між цими двома змінними, які мають досить багато відсутніх значень. Коли одна з них відсутня, а інша доступна, ми можемо побачити, де знаходяться ці точки.
У цій ситуації обидва вони спостерігаються в одному з цих випадків. Одного немає, а іншого немає. Якщо обидва відсутні, це не буде на сюжеті.
Висновок
Коли ми працюємо з відсутніми значеннями, виникає спокуса використовувати такий алгоритм, як MICE, оскільки він дуже потужний для імпутування значень. Однак краще самостійно вивчити дані і зрозуміти, що відбувається.
В ідеалі, якщо у нас є багато відсутніх даних, ми хочемо з’ясувати, чому, і, можливо, ми можемо спробувати отримати додаткові дані або ми можемо приписати їх. Завжди краще звертатися безпосередньо до джерела.
Якщо врешті-решт ми захочемо імпутувати відсутні значення, ми можемо застосувати кілька простих методів імпутації за допомогою пакета tidyverse, наприклад середнього або медіани.
Без сумніву, пакет MICE є потужним. Це може бути надмірно для речей, які потребують дуже багато обчислень, але зараз ми зосереджені лише на елементі візуалізації.
Сподіваюся, ви щось дізнаєтесь і можете сміливо використовувати цей пакет. Обов’язково поділіться ним і спробуйте розповісти про нього, оскільки це гарний пакет для роботи з відсутніми значеннями, сумісними з ggplot2.
Все найкраще,
Джордж
У цьому посібнику ви дізнаєтеся, як перетворити текст у формат дати за допомогою редактора Power Query в LuckyTemplates.
Дізнайтеся, як об’єднати файли з кількох папок у мережі, робочому столі, OneDrive або SharePoint за допомогою Power Query.
Цей підручник пояснює, як обчислити місячне ковзне середнє на базі даних з початку року за допомогою функцій AVERAGEX, TOTALYTD та FILTER у LuckyTemplates.
Дізнайтеся, чому важлива спеціальна таблиця дат у LuckyTemplates, і вивчіть найшвидший і найефективніший спосіб це зробити.
У цьому короткому посібнику розповідається про функцію мобільних звітів LuckyTemplates. Я збираюся показати вам, як ви можете ефективно створювати звіти для мобільних пристроїв.
У цій презентації LuckyTemplates ми розглянемо звіти, що демонструють професійну аналітику послуг від фірми, яка має кілька контрактів і залучених клієнтів.
Ознайомтеся з основними оновленнями для Power Apps і Power Automate, а також їх перевагами та наслідками для Microsoft Power Platform.
Відкрийте для себе деякі поширені функції SQL, які ми можемо використовувати, наприклад String, Date і деякі розширені функції для обробки та маніпулювання даними.
У цьому підручнику ви дізнаєтеся, як створити свій ідеальний шаблон LuckyTemplates, налаштований відповідно до ваших потреб і вподобань.
У цьому блозі ми продемонструємо, як шарувати параметри поля з малими кратними, щоб створити неймовірно корисну інформацію та візуальні ефекти.