Створення діаграми джиттера за допомогою Ggplot2 у RStudio

Пакет є найповнішим способом побудови графіків і графіків. Такі компанії, як New York Times і The Economist, активно використовують ggplot2 для створення своїх візуалізацій. З великими компаніями, які використовують цей інструмент, важливо мати базу знань про те, як використовувати ggplot2 для створення візуалізацій, таких як графік джиттера.

У цьому підручнику ви дізнаєтеся, як створити діаграму тремтіння за допомогою ggplot2 у . Як тільки ви зрозумієте граматику графіки в ggplot2, ви зможете об’єднати будь-який графік або графік.

Діаграма тремтіння – це тип, який використовується для відображення розподілу набору точок числових даних. «Трихання» в назві графіка означає випадкову варіацію, яка додається до положення кожного символу вздовж осей x та y.

Ця варіація допомагає запобігти накладанню символів і полегшує перегляд розподілу точок даних у випадках високої щільності точок у певних областях графіка.

Якщо у вас є густонаселений графік, графік тремтіння може полегшити розуміння вашої візуалізації. Ви також можете використовувати його для побудови розподілу за категоріями, що є альтернативою прямокутному графіку або .

Зміст

Створення діаграми джиттера в R

Для цієї демонстрації використовується набір даних tidyverse .

Створення діаграми джиттера за допомогою Ggplot2 у RStudio

Спочатку створіть діаграму розсіювання за допомогою функції ggplot () . У цьому випадку на осі абсцис – рік, а на осі у – набір даних про милі на галлон.

Створення діаграми джиттера за допомогою Ggplot2 у RStudio

Коли ви запустите код, ви побачите, що графік показує точки, які утворюють пряму лінію відносно осі y.

Створення діаграми джиттера за допомогою Ggplot2 у RStudio

Використовуйте функцію geom_jitter () , щоб додати ще один шар до графіка. Коли ви запустите код, ви побачите, що точки на графіку змістилися. Точки будуть продовжувати зміщуватися щоразу, коли ви запускаєте код.

Створення діаграми джиттера за допомогою Ggplot2 у RStudio

Щоб зупинити постійне зміщення точок, використовуйте функцію set.seed () . Усередині дужок введіть будь-яке випадкове число. У цьому випадку це 1234. Після запуску коду ви побачите, що графік залишається незмінним, навіть якщо ви кілька разів натискаєте кнопку «Виконати».

Створення діаграми джиттера за допомогою Ggplot2 у RStudio

Створення діаграми джиттера з категоріальними змінними

Ви також можете використовувати функцію geom_jitter ( ) для категоріальних змінних.

Використовуючи той самий аргумент, давайте змінимо вісь x на mpg, а вісь y – на початок координат. Коли ви запускаєте новий рядок коду, ви бачите, що дані не відображаються прямими лініями, а випадково розподіляються на графіку.

Створення діаграми джиттера за допомогою Ggplot2 у RStudio

Це допоможе вам візуалізувати окремі спостереження для кожної категорії та те, як вони відрізняються. У цьому випадку ви можете побачити типовий пробіг одного походження порівняно з іншим.

Ви можете додати колір до графіка, додавши ще один аргумент у функції aes () . Ви також можете встановити розмір точок відповідно до певного значення даних у своєму наборі даних.

Створення діаграми джиттера за допомогою Ggplot2 у RStudio

У цьому прикладі графік тремтіння полегшив ідентифікацію походження з більшістю автомобілів і тих, які мають кращий пробіг.

Через розмір, заданий у коді, сюжет виглядає перенасиченим. Ви можете змінити розмір або колір точок даних залежно від ваших уподобань або бізнес-вимог.

Висновок

Діаграма тремтіння — це один із способів запровадити нову форму розуміння ваших візуалізацій. Це допомагає користувачам краще зрозуміти, що відбувається з даними. Цей графік є чудовою альтернативою типовій гістограмі або прямокутному графіку для побудови розподілів.

Здатність ефективно розуміти базову структуру набору даних робить графіки джиттера цінним інструментом у різних сферах, таких як статистика, аналіз даних і машинне навчання. Загалом графіки тремтіння забезпечують чітке та просте для розуміння представлення розподілу точок числових даних, що робить його потужним інструментом для візуалізації та аналізу даних.

Все найкраще,

Джордж Маунт


Труба в R: підключення функцій за допомогою Dplyr

Труба в R: підключення функцій за допомогою Dplyr

У цьому підручнику ви дізнаєтесь, як об’єднати функції разом за допомогою оператора каналу dplyr мовою програмування R.

RANKX Deep Dive: функція LuckyTemplates DAX

RANKX Deep Dive: функція LuckyTemplates DAX

RANKX від LuckyTemplates дозволяє повернути рейтинг певного числа в кожному рядку таблиці, який є частиною списку чисел.

Вилучення тем і зображень LuckyTemplates із PBIX

Вилучення тем і зображень LuckyTemplates із PBIX

Дізнайтеся, як розібрати файл PBIX, щоб витягти теми та зображення LuckyTemplates із фону та використовувати їх для створення звіту!

Шпаргалка формул Excel: Посібник середнього рівня

Шпаргалка формул Excel: Посібник середнього рівня

Шпаргалка формул Excel: Посібник середнього рівня

Календарна таблиця LuckyTemplates: що це таке та як ним користуватися

Календарна таблиця LuckyTemplates: що це таке та як ним користуватися

Календарна таблиця LuckyTemplates: що це таке та як ним користуватися

Python у LuckyTemplates: як встановити та налаштувати

Python у LuckyTemplates: як встановити та налаштувати

Дізнайтеся, як інсталювати мову програмування Python у LuckyTemplates і як використовувати її інструменти для написання кодів і відображення візуальних елементів.

Розрахунок динамічної норми прибутку – легкий аналіз LuckyTemplates за допомогою DAX

Розрахунок динамічної норми прибутку – легкий аналіз LuckyTemplates за допомогою DAX

Дізнайтеся, як обчислювати динамічну маржу прибутку за допомогою LuckyTemplates і як ви можете отримати більше інформації, глибше досліджуючи результати.

Сортування стовпців таблиці дат у LuckyTemplates

Сортування стовпців таблиці дат у LuckyTemplates

Дізнайтеся, як правильно сортувати поля зі стовпців розширеної таблиці дат. Це хороша стратегія для складних полів.

Знайдіть свої найкращі продукти для кожного регіону в LuckyTemplates за допомогою DAX

Знайдіть свої найкращі продукти для кожного регіону в LuckyTemplates за допомогою DAX

У цій статті я поясню, як знайти найпопулярніші продукти для регіону за допомогою обчислень DAX у LuckyTemplates, включаючи функції TOPN і CALCULATE.

Вимір сміття: що це таке і чому це щось інше, але не сміття

Вимір сміття: що це таке і чому це щось інше, але не сміття

Дізнайтеся, як використовувати вимірювання сміття для позначок низької потужності, які ви хочете ефективно включити у свою модель даних.