Кореляція Python: Керівництво зі створення візуалів

У сьогоднішньому блозі ми розповімо про процес візуалізації кореляції та про те, як імпортувати ці візуальні елементи в LuckyTemplates. Ви можете переглянути повне відео цього підручника внизу цього блогу.

Зміст

Розуміння кореляцій

Ось гарне зображення, яке демонструє різні типи кореляції. 

Кореляція Python: Керівництво зі створення візуалів

Починаючи зліва, ми маємо ідеальну позитивну кореляцію , яка означає, що вона має значення кореляції 1. Потім за нею йдуть позитивні кореляції в порядку спадання, що веде до 0. 

Середній графік не показує кореляції , що свідчить про те, що значення кореляції дорівнює 0. 

Нарешті, права сторона представляє значення негативної кореляції, що зменшуються від 0. Крайній правий графік є ідеальною негативною кореляцією , яка має значення кореляції -1.

Пакети для Python Correlation

Для цього підручника ми будемо використовувати чотири пакети. Наш перший пакет — це Pandas , який буде використовуватися для обробки даних і зберігатися як змінна pd

Для візуалізації ми будемо використовувати Matplotlib , збережену як змінну plt для полегшення використання цих функцій. Seaborn , наша бібліотека статистичної візуалізації, буде збережено як sns . І нарешті, Numpy , який буде збережено як np , буде використовуватися для лінійної алгебри. 

Кореляція Python: Керівництво зі створення візуалів

Для даних ми будемо використовувати зразок набору даних у Seaborn. Потім за допомогою змінної sns ми введемо набір даних алмазів , як показано нижче. .

Кореляція Python: Керівництво зі створення візуалів

Атрибути даних

Ми можемо переглядати атрибути наших даних за допомогою функції dataset.info . Ця функція показує нам усі різні типи даних, як показано в останньому стовпчику нижче.

Кореляція Python: Керівництво зі створення візуалів

Зверніть увагу, що кореляція працює лише з числовими змінними, тому ми будемо розглядати числові змінні більшу частину часу. Однак ми також навчимося використовувати деякі категоріальні змінні для візуалізації. 

Набір кореляційних даних Python

Використовуючи функцію head, написану як dataset.head , ми можемо отримати п’ять верхніх рядків наших даних, які мають виглядати так.

Кореляція Python: Керівництво зі створення візуалів

У першому стовпці ми маємо карати , за ними йдуть категоричні змінні cut , color і clarity , а потім числові значення для решти даних. 

Кореляція Python: створення діаграми розсіювання

Візуалізуючи кореляції та розглядаючи дві змінні, ми зазвичай дивимося на . 

Таким чином, використовуючи бібліотеку Seaborn, ми створили нашу діаграму розсіювання за допомогою функції діаграми розсіювання, куди ми передали дані, які ми зберегли вище як data=dataset . Потім ми визначили змінні X і Y — карат і ціну відповідно. 

Кореляція Python: Керівництво зі створення візуалів

Ось наша точкова діаграма, створена за допомогою бібліотеки Seaborn. 

Кореляція Python: Керівництво зі створення візуалів

Ви бачите, що ця діаграма розсіювання досить щільна. Це тому, що ми маємо близько 54 000 рядків даних, і точки не обов’язково представлені найкращим чином.

Ми можемо натиснути клавіші Shift + Tab, щоб побачити різні способи стилізації точкової діаграми. Він покаже нам список різних параметрів, які ми можемо додати до нашої діаграми розсіювання. 

Кореляція Python: Керівництво зі створення візуалів

Прокручування нижче дасть нам інформацію про те, що робить кожен із перелічених параметрів. 

Кореляція Python: Керівництво зі створення візуалів

Додаткові параметри діаграми розсіювання

Давайте трохи зануримося. Ми можемо зробити ширину лінії=0 , оскільки білі лінії на нашій першій діаграмі розсіювання, показаній нижче, дещо приховують речі. 

Кореляція Python: Керівництво зі створення візуалів

Ми також хочемо налаштувати альфа-версію, щоб ми могли контролювати непрозорість. Давайте використаємо alpha=0,2 для нашого прикладу. Але, звичайно, ви також можете змінити це на 0,1. 

Кореляція Python: Керівництво зі створення візуалів

Якщо ми додамо ці параметри та натиснемо «Запустити» , ви побачите, що наша діаграма розсіювання стає більш непрозорою без білих ліній. 

Кореляція Python: Керівництво зі створення візуалів

Ви можете пограти з параметрами, щоб отримати найкраще зображення, яке ви шукаєте. 

Використання категоріальних змінних

Ми також можемо використовувати деякі з наших категоріальних змінних, щоб покращити наші візуальні ефекти. Наприклад, ми знаємо, що наші дані мають огранку для нашого діаманта. 

Що ми можемо зробити, це передати цю категорію вирізання, використовуючи параметр hue як hue='cut'. Це дозволить нам візуалізувати ці точки, змінюючи кольори. 

Кореляція Python: Керівництво зі створення візуалів

Звичайно, ми можемо додати більше параметрів, як, наприклад, альфа. Ми можемо додати це знову, встановити значення 0,2, і подивитися, як це змінить візуальне зображення. Давайте клацнемо «Виконати» , і ви побачите невелику різницю. 

Кореляція Python: Керівництво зі створення візуалів

Ми можемо пограти з параметрами, щоб отримати візуальне зображення, яке ми шукаємо. Ми також можемо використовувати різні категорії, такі як чіткість, що дає нам категорії ясності, а також дає нам трохи інший погляд на цей розкид.

Кореляція Python: Керівництво зі створення візуалів

Кореляція з іншими змінними

Вас також може зацікавити, як співвідносяться інші значення, крім ціни та карату. Отже, якщо ми подивимося на діаграму розсіювання для таблиці , яка є числовим розміром цього ромба та  глибиною , ми побачимо, що лінійного зв’язку один до одного немає.

Кореляція Python: Керівництво зі створення візуалів

Ми також можемо розглянути дві інші змінні, такі як глибина та ціна . На основі графіка ми бачимо, що центри обробки даних навколо середньої області.

Кореляція Python: Керівництво зі створення візуалів

Кореляція Python: створення графіка регресії

Давайте перейдемо до того, що ми називаємо графіком регресії, який дозволяє нам оцінити лінійний зв’язок між двома змінними. 

Тому замість функції діаграми розсіювання цього разу ми будемо використовувати функцію regplot . Ми передамо ту саму структуру — наші дані, потім змінні X і Y. 

Кореляція Python: Керівництво зі створення візуалів

Результат показує лінію, яка вимірює лінійну залежність між змінними. Також очевидно, як наші цінності обертаються навколо цієї лінії регресії.

Кореляція Python: Керівництво зі створення візуалів

На даний момент це не дуже красиве зображення, але ми все одно можемо оптимізувати його, щоб отримати кращий. Наприклад, ми можемо передати стиль за допомогою змінної Matplotlib. Ми можемо змінити стиль на темний фон за допомогою коду plt.style.use('dark_background'). 

Кореляція Python: Керівництво зі створення візуалів

Візьміть той самий графік регресії та введіть кілька ключових слів для нашого розкиду та лінії. Давайте використаємо червоний колір і ширину лінії 1 для нашої лінії регресії. Це записується як line_kws={“color” : “red”, 'linewidth' : 1). 

Для наших ключових слів scatter давайте встановимо колір як білий, колір країв як сірий і непрозорість як 0,4, щоб записати як scatter_kws={“color” : “white”, 'edgecolor' : 'grey', 'alpha' : 0.4 ). 

Кореляція Python: Керівництво зі створення візуалів

Ці параметри дають нам трохи інший погляд, показаний нижче. 

Кореляція Python: Керівництво зі створення візуалів

Кореляція Python: створення кореляційної матриці

Поки що ми розглядали діаграми розсіювання лише з двома змінними, але ми також можемо захотіти поглянути на всі наші кореляції змінних.

Це виконується за допомогою нашого набору даних із функцією фрейму даних під назвою кореляція, представленою як dataset.corr. І що ми отримаємо, це матриця, яка показує нам кореляцію кожної з цих змінних. 

Кореляція Python: Керівництво зі створення візуалів

Числа в таблиці вище представляють кореляцію Пірсона , яка фокусується на лінійному зв’язку між усіма цими змінними. 

Але якщо ми не впевнені, що наші змінні повністю лінійно корельовані, ми можемо використати інший тип кореляції, який більше зосереджується на впливі, ніж на лінійній частині. Це називається кореляцією Спірмена

Кореляція Python: Керівництво зі створення візуалів

І ми можемо переглянути інформацію про всі ці речі, натиснувши Shift + Tab. Якщо ви прокрутите вниз, ми побачимо рангову кореляцію Спірмена, коефіцієнт кореляції Пірсона та досить багато різних способів вимірювання наших даних. 

Кореляція Python: Керівництво зі створення візуалів

Повертаючись до нашої кореляційної матриці раніше, ми знаємо, що ціна та карат досить добре корелюють.

Кореляція Python: Керівництво зі створення візуалів

Вони з нашого графіка тут показують, що вони досить лінійні на 0,92. 

Кореляція Python: Керівництво зі створення візуалів

Тепер, якщо ми замість цього використаємо кореляцію Спірмена, вплив чи рейтинг буде трохи вищим і становить 0,96.

Кореляція Python: Керівництво зі створення візуалів

Ці різні типи кореляції дозволяють нам підібрати різні атрибути кореляції між цими змінними. 

Кореляція кількох х одиничних змінних

Іноді ми не хочемо бачити a, оскільки нас більше турбує кореляція всіх змінних лише з однією змінною (наприклад, ціною).

Тоді ми можемо виділити ціну за допомогою dataset.corr , за яким слідує 'price'

Кореляція Python: Керівництво зі створення візуалів

Тепер ми бачимо, що ціна корелює з усіма нашими різними числовими змінними в цій таблиці. І причина, чому ми можемо захотіти це зробити, полягає в візуальних сюжетах. 

Отже, давайте розглянемо візуалізацію нашої кореляційної матриці за допомогою теплової карти.

Кореляція Python: створення теплової карти

Ми можемо передати цю кореляційну змінну в Seaborn за допомогою функції sns.heatmap.

Кореляція Python: Керівництво зі створення візуалів

Це дасть нам теплову карту, яка виглядає так.

Кореляція Python: Керівництво зі створення візуалів

Знову ж таки, ми можемо додати параметри за нашими перевагами. Ми можемо передати параметр linewidths=1 і додати анотації за допомогою annot=True

Кореляція Python: Керівництво зі створення візуалів

І ви бачите, що наша теплова карта тепер виглядає зовсім інакше. Зараз ми маємо гарну теплову карту. 

Кореляція Python: Керівництво зі створення візуалів

Ми бачимо корисність додавання рядків і анотацій. Знову ж таки, якщо ми натиснемо Shift + Tab, відобразяться всі різні параметри, які можуть входити до цього. 

Далі спробуйте додати method='spearman ' у наш код, щоб ви знали, як використовувати різний тип кореляції залежно від вашого випадку використання. 

Кореляція Python: Керівництво зі створення візуалів

Теплова карта з однією змінною

Далі ми виділяємо одну змінну та створюємо теплову карту з кореляцією від негативної до позитивної.

Кореляція Python: Керівництво зі створення візуалів

Це дасть нам теплову карту нижче.

Кореляція Python: Керівництво зі створення візуалів

Ми також можемо змінити стиль. Наприклад, ми можемо використовувати параметр cmap як cmap='coolwarm' . Це змінить кольори на холодні та теплі, а також усуне наш чорний фон. 

Кореляція Python: Керівництво зі створення візуалів

Якщо ми натиснемо «Запустити» , ми отримаємо цю теплову карту нижче. Для прохолоди у нас є сині, а для теплих – червоні смуги. 

Кореляція Python: Керівництво зі створення візуалів

Ми також можемо змінити напрямок, щоб вирівняти нашу карту з кольоровою смугою. Це робиться шляхом редагування параметра sort_values ​​і додавання ascending=False

Кореляція Python: Керівництво зі створення візуалів

Це відбуватиметься від найбільш корельованого (червона смуга) до найменш корельованого (синя смуга). 

Кореляція Python: Керівництво зі створення візуалів

Кореляція Python: створення візуалу сходів

Один із просунутих способів візуалізації нашої кореляції — використання маски для блокування всіх кореляцій, які ми вже зробили. 

Ми можемо зробити це за допомогою Numpy, використовуючи деякі функції TRUE і FALSE, щоб зробити сходи візуальними для наших кореляцій. 

Кореляція Python: Керівництво зі створення візуалів

Ось як мають виглядати результати.

Кореляція Python: Керівництво зі створення візуалів

Давайте подивимося, як ми можемо передати це в LuckyTemplates.

Візуал сходів у LuckyTemplates

Спочатку відкрийте LuckyTemplates. Я ввів набір даних авокадо, щоб ми могли побачити інше зображення. Ви можете побачити цей набір даних на панелі «Поля». Ініціалізуйте візуал, клацнувши піктограму Python під панеллю візуалізацій. 

Кореляція Python: Керівництво зі створення візуалів

Нам потрібно створити набір даних, додавши всі числові змінні, які позначені символом ? . Додайте їх, установивши прапорці біля цих змінних. 

Кореляція Python: Керівництво зі створення візуалів

Тепер, коли у нас є набір даних, ми можемо перейти до нашого блокнота Jupyter і скопіювати цей код, який ми мали раніше.

Кореляція Python: Керівництво зі створення візуалів

Потім ми скопіюємо код до редактора скриптів Python у LuckyTemplates. 

Кореляція Python: Керівництво зі створення візуалів

Далі ми виберемо візуал, який буде візуалом сходів. Ми повернемося до Юпітера, скопіюємо код, який ми використовували для візуалізації сходів.

Кореляція Python: Керівництво зі створення візуалів

Вставте код у редактор сценаріїв Python.

Кореляція Python: Керівництво зі створення візуалів

Останнє, що потрібно зробити, це переконатися, що ми використовуємо plt.show , який потрібен у вашому сценарії Python. Додайте plt.show в останній рядок коду та натисніть значок запуску у верхньому правому куті редактора сценаріїв.

Кореляція Python: Керівництво зі створення візуалів

Для більшої видимості трохи розтягніть рамку, щоб ми могли бачити сценарій, що працює в кутку. У нас є наш візуал для нашої теплової карти, який виглядає досить гарно.

Кореляція Python: Керівництво зі створення візуалів

І в LuckyTemplates ми точно можемо побачити, як цей візуал може змінюватися відповідно до набору даних. Наприклад, ми можемо клацнути піктограму Slicer на панелі Visualizations і перейти до Type на панелі Fields. 

Це дасть нам два типи в нашому наборі даних: звичайний і органічний . Якщо ми клацнемо один тип, скажімо, органічний , ви побачите, що теплова карта змінюється. 

Кореляція Python: Керівництво зі створення візуалів

Зміни також будуть застосовані, коли ми натиснемо на звичайний тип далі.

Кореляція Python: Керівництво зі створення візуалів

Пам’ятайте, що нам потрібна категоріальна змінна в наборі даних нашого сценарію, щоб ці фільтри працювали. Як ми бачимо, набір даних, який ми створили, включав тип , що дозволило нам фільтрувати візуальне зображення таким чином. 

Кореляція Python: Керівництво зі створення візуалів




Висновок

У цьому блозі ви дізналися, як візуалізувати кореляції в Python і LuckyTemplates за допомогою різних методів, таких як кореляція Пірсона та рангова кореляція Спірмена. 

Тепер ви можете створювати діаграми розсіювання, регресійні діаграми, кореляційну матрицю, теплові карти та візуальні елементи сходів, щоб отримати найкраще зображення для свого набору даних. Ви також можете використовувати різні параметри для покращення стилів і візуальних елементів. 

Все найкраще,


Труба в R: підключення функцій за допомогою Dplyr

Труба в R: підключення функцій за допомогою Dplyr

У цьому підручнику ви дізнаєтесь, як об’єднати функції разом за допомогою оператора каналу dplyr мовою програмування R.

RANKX Deep Dive: функція LuckyTemplates DAX

RANKX Deep Dive: функція LuckyTemplates DAX

RANKX від LuckyTemplates дозволяє повернути рейтинг певного числа в кожному рядку таблиці, який є частиною списку чисел.

Вилучення тем і зображень LuckyTemplates із PBIX

Вилучення тем і зображень LuckyTemplates із PBIX

Дізнайтеся, як розібрати файл PBIX, щоб витягти теми та зображення LuckyTemplates із фону та використовувати їх для створення звіту!

Шпаргалка формул Excel: Посібник середнього рівня

Шпаргалка формул Excel: Посібник середнього рівня

Шпаргалка формул Excel: Посібник середнього рівня

Календарна таблиця LuckyTemplates: що це таке та як ним користуватися

Календарна таблиця LuckyTemplates: що це таке та як ним користуватися

Календарна таблиця LuckyTemplates: що це таке та як ним користуватися

Python у LuckyTemplates: як встановити та налаштувати

Python у LuckyTemplates: як встановити та налаштувати

Дізнайтеся, як інсталювати мову програмування Python у LuckyTemplates і як використовувати її інструменти для написання кодів і відображення візуальних елементів.

Розрахунок динамічної норми прибутку – легкий аналіз LuckyTemplates за допомогою DAX

Розрахунок динамічної норми прибутку – легкий аналіз LuckyTemplates за допомогою DAX

Дізнайтеся, як обчислювати динамічну маржу прибутку за допомогою LuckyTemplates і як ви можете отримати більше інформації, глибше досліджуючи результати.

Сортування стовпців таблиці дат у LuckyTemplates

Сортування стовпців таблиці дат у LuckyTemplates

Дізнайтеся, як правильно сортувати поля зі стовпців розширеної таблиці дат. Це хороша стратегія для складних полів.

Знайдіть свої найкращі продукти для кожного регіону в LuckyTemplates за допомогою DAX

Знайдіть свої найкращі продукти для кожного регіону в LuckyTemplates за допомогою DAX

У цій статті я поясню, як знайти найпопулярніші продукти для регіону за допомогою обчислень DAX у LuckyTemplates, включаючи функції TOPN і CALCULATE.

Вимір сміття: що це таке і чому це щось інше, але не сміття

Вимір сміття: що це таке і чому це щось інше, але не сміття

Дізнайтеся, як використовувати вимірювання сміття для позначок низької потужності, які ви хочете ефективно включити у свою модель даних.