Функція Seaborn у Python для візуалізації розподілу змінної

Працюючи з набором даних, який складається з кількох змінних, найкраще мати можливість зрозуміти, як вони відрізняються та взаємодіють одна з одною. У цьому посібнику я збираюся продемонструвати, як можна використовувати функцію Seaborn у Python для візуалізації альтернатив розподілу змінної. Ви можете переглянути повне відео цього підручника внизу цього блогу.

Зміст

Використання функції Seaborn у Python

Я продемонструю це на наборі даних MPG, який доступний у Seaborn. Отже, давайте продовжимо імпорт будь-яких пакетів, які нам потрібні, а також будь-яких даних, які нам потрібні. Ми розглянемо тут розподіл змінної MPG і те, як вони змінюються. Двома поширеними способами зробити це є гістограма та коробковий графік .

Функція Seaborn у Python для візуалізації розподілу змінної

Тому я збираюся використовувати функцію displot (DIS для розподілу). Потім мені потрібно вказати, який це набір даних і яку змінну ми збираємося помістити на вісь X. І разом з цим у нас є розподіл.

Це дуже добре. Це дуже легко побачити весь розподіл і форму. Хоча ця візуалізація розподілу має кілька недоліків. Одна з них полягає в тому, що кількість бункерів, які ми використовуємо, є довільною. Інша справа, що ми не обов’язково можемо миттєво знати, яке середнє значення змінної.

Функція Seaborn у Python для візуалізації розподілу змінної

Приємна річ у Seaborn полягає в тому, що як тільки я встановлю, яку змінну я хочу, де та який набір даних я використовую, це справді просто підключи та запусти, створюючи нову візуалізацію. Тепер ми перейдемо до коробки. Boxplot не використовує контейнери.

Ідея полягає в тому, що ми можемо дуже чітко бачити значення квартиля, зокрема медіану, і ми бачимо інші значення квартиля. Ми бачимо, що є викид, і це дуже точний графік. Проблема полягає в тому, що він точний з речами, які зазвичай не цікавлять багатьох бізнес-користувачів.

Функція Seaborn у Python для візуалізації розподілу змінної

Отже, людям, які не займаються статистикою, цей сюжет трохи складно отримати значну цінність. І знову ж таки, це збирає дані, тому ми втрачаємо багато деталей. Важко точно знати, як це виглядає. Ми бачимо, що є викид. Ми бачимо, що більшість значень тут. Гістограма дає нам більш інтуїтивний спосіб подивитися на це.

Це обидва гарні сюжети. Вони обидва мають свої цілі. Давайте розглянемо деякі альтернативи використання Seaborn для візуалізації. Ми збираємося дотримуватися MPG для розподілу цієї змінної.

Подібно до прямокутної діаграми, тут можна побачити, що медіана чітко позначена. Ми також бачимо діапазон квартилів і можемо краще зрозуміти, яким є загальний розподіл. Це теж щось на зразок гістограми. Це називається діаграмою оцінки щільності ядра або графіком KDE. Це плавна версія гістограми. Ми не використовуємо довільне групування. Тут все згладжено в суцільний ряд.

Функція Seaborn у Python для візуалізації розподілу змінної

Це свого роду гібрид цих двох підходів і справді усуває деякі недоліки. Однак, залежно від вашої аудиторії, їм може бути важко дивитися на це. Можливо, вони не звикли до цього, але це має деякі переваги перед традиційними підходами.

У такому підході ми більше не збираємо дані. Наноситься кожна окрема точка. Для цього потрібні елементи діаграми розсіювання, чи не так? Якщо ви думаєте про діаграму розсіювання, ми малюємо кожну окрему точку за координатами X і Y.

Функція Seaborn у Python для візуалізації розподілу змінної

Нарешті, у нас є stripplot . Те, що ми робимо тут, це беремо цей розподіл і ми випадково розкидаємо. Це випадковий процес. Ми більше не намагаємося створити таку форму розподілу. Проблема полягає в тому, що всі ці групи стикаються одна з одною, тому це може бути недобре, залежно від того, що ви намагаєтеся зробити. Можливо, ви захочете розфарбувати їх за групою чи щось подібне, тож для цього є можливість.

Функція Seaborn у Python для візуалізації розподілу змінної

Ми можемо змінити джиттер на 0,25 і побачити, що зі збільшенням джиттера ці точки розкидаються трохи більше.

Функція Seaborn у Python для візуалізації розподілу змінної

Однак кожного разу, коли я запускаю їх, вони виглядатимуть дещо інакше. Отже, якщо ви хочете позбутися цього і робити його однаковим кожного разу, ви можете імпортувати numpy як np . Це те, що називається встановленням випадкового початкового числа.

Кожного разу, коли я запускаю щось пов’язане з випадковими числами, воно використовуватиме ті самі випадкові числа. Речі не змінюються випадково, коли ви повторюєте його. Це може бути корисним для будь-якого виду моделювання, яке ви робите, що також часто трапляється в науці даних і аналітиці з цією візуалізацією. Тож тепер кожного разу, коли я запускаю цей сюжет, ми матимемо такий самий вигляд.

Функція Seaborn у Python для візуалізації розподілу змінної

Я також можу додати сюди початок Y, і тепер ми бачимо, що ми створюємо двоваріантний розподіл. Ми беремо розподіл пробігу та сегментуємо його за походженням.

Функція Seaborn у Python для візуалізації розподілу змінної




Висновок

Це альтернативи візуалізації розподілу однієї змінної. Всі вони мають свої плюси і мінуси. Це не означає, що ніколи не використовуйте коробкову діаграму чи гістограму, але це просто означає, що ось деякі інші варіанти, залежно від того, що ви намагаєтеся показати.

Їх усіх так само легко створити, як і будь-які інші, коли ми використовуємо функцію Seaborn у Python. Якщо ви хочете дізнатися більше про , перегляньте посилання нижче.

Все найкраще!


Функція параметра LuckyTemplates «Що, якщо».

Функція параметра LuckyTemplates «Що, якщо».

У цьому блозі представлено нову функцію в LuckyTemplates — параметр аналізу «Що, якщо». Ви побачите, як це робить усе швидким і легким для аналізу сценарію.

Використовуйте розгалуження міри LuckyTemplates, щоб перевірити, чи зростає ваша маржа зі зростанням доходу

Використовуйте розгалуження міри LuckyTemplates, щоб перевірити, чи зростає ваша маржа зі зростанням доходу

Дізнайтеся, як визначити, чи добре зростає ваш дохід, перевіривши, чи зросла ваша маржа за допомогою розгалуження міри LuckyTemplates.

Параметри LuckyTemplates через редактор запитів

Параметри LuckyTemplates через редактор запитів

Дізнайтеся та зрозумійте, як можна створювати та використовувати параметри LuckyTemplates, які є потужною функцією редактора запитів.

Кругла гістограма – візуалізація для вашої інформаційної панелі

Кругла гістограма – візуалізація для вашої інформаційної панелі

У цьому підручнику буде обговорено створення круглої гістограми за допомогою Charticulator. Ви дізнаєтеся, як створити їх для звіту LuckyTemplates.

Функції та формули PowerApps | Вступ

Функції та формули PowerApps | Вступ

Дізнайтеся, як використовувати функції та формули PowerApps, щоб покращити функціональність і змінити поведінку в нашій програмі Canvas Power Apps.

Труба в R: підключення функцій за допомогою Dplyr

Труба в R: підключення функцій за допомогою Dplyr

У цьому підручнику ви дізнаєтесь, як об’єднати функції разом за допомогою оператора каналу dplyr мовою програмування R.

RANKX Deep Dive: функція LuckyTemplates DAX

RANKX Deep Dive: функція LuckyTemplates DAX

RANKX від LuckyTemplates дозволяє повернути рейтинг певного числа в кожному рядку таблиці, який є частиною списку чисел.

Вилучення тем і зображень LuckyTemplates із PBIX

Вилучення тем і зображень LuckyTemplates із PBIX

Дізнайтеся, як розібрати файл PBIX, щоб витягти теми та зображення LuckyTemplates із фону та використовувати їх для створення звіту!

Шпаргалка формул Excel: Посібник середнього рівня

Шпаргалка формул Excel: Посібник середнього рівня

Шпаргалка формул Excel: Посібник середнього рівня

Календарна таблиця LuckyTemplates: що це таке та як ним користуватися

Календарна таблиця LuckyTemplates: що це таке та як ним користуватися

Календарна таблиця LuckyTemplates: що це таке та як ним користуватися