Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Pri práci s množinou údajov, ktorá sa skladá z viacerých premenných, je najlepšie vedieť pochopiť, ako sa tieto odlišujú a ako sa navzájom ovplyvňujú. V tomto návode ukážem, ako môžete použiť funkciu Seaborn v Pythone na vizualizáciu alternatív k distribúcii premennej. Celé video tohto návodu si môžete pozrieť v spodnej časti tohto blogu.

Obsah

Používanie funkcie Seaborn v Pythone

Ukážem to na súbore údajov MPG, ktorý je dostupný v rámci Seaborn. Pokračujme teda a importujme všetky balíky, ktoré potrebujeme, ako aj všetky údaje, ktoré potrebujeme. Tu sa pozrieme na distribúciu premennej MPG a na to, ako sa líšia. Dva bežné spôsoby, ako to urobiť, sú histogram a boxplot .

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Takže použijem funkciu displot (DIS pre distribúciu). Potom musím špecifikovať, o aký súbor údajov ide a akú premennú umiestnime na os X. A s tým máme distribúciu.

Toto je celkom dobré. Toto je veľmi ľahké vidieť celé rozloženie a tvar. Pár nedostatkov s touto vizualizáciou distribúcie však. Jedným z nich je, že počet zásobníkov, ktoré používame, je pravdepodobne ľubovoľný. Ďalšia vec je, že nemôžeme okamžite vedieť, aký je priemer premennej.

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Na Seaborn je pekné, že akonáhle si nastavím, akú premennú chcem, kde a aký súbor údajov používam, je to naozaj jednoduché s vytváraním novej vizualizácie. Teraz prejdeme k boxplotu. Boxplot nepoužíva koše.

Ide o to, že kvartilovú hodnotu vidíme naozaj jasne, konkrétne medián, a vidíme ostatné kvartilové hodnoty. Vidíme, že je tu odľahlá hodnota a toto je veľmi presná zápletka. Problém je v tom, že je presný vo veciach, o ktoré sa vo všeobecnosti veľa podnikových používateľov pravdepodobne nestará.

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Takže pre ľudí, ktorí nie sú štatistikami, je tento pozemok trochu ťažké získať skutočne veľkú hodnotu. A opäť agreguje dáta, takže prichádzame o veľa detailov. Je ťažké presne vedieť, ako to vyzerá. Vidíme, že je tu odľahlá hodnota. Vidíme, že väčšina hodnôt je tu. Histogram nám poskytuje intuitívnejší spôsob, ako sa na to pozrieť.

Obe sú to dobré zápletky. Obaja majú svoje ciele. Pozrime sa na niektoré alternatívy pomocou Seaborn na vizualizáciu. Pri distribúcii tejto premennej zostaneme pri MPG.

Podobne ako pri boxplote, aj tu môžete vidieť, že medián je jasne vyznačený. Vidíme aj kvartilový rozsah a môžeme sa lepšie pozrieť na celkové rozdelenie. Toto je tiež niečo ako histogram. Nazýva sa to graf odhadu hustoty jadra alebo graf KDE. Je to hladká verzia histogramu. Nepoužívame žiadne svojvoľné triedenie. Všetko je tu vyhladené do súvislého rozsahu.

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Toto je akýsi hybrid týchto dvoch prístupov a skutočne sa stará o niektoré nedostatky. V závislosti od vášho publika však môžu mať s pozeraním na toto naozaj problém. Možno na to nie sú zvyknutí, no má to určité výhody oproti tradičným prístupom.

Pri tomto prístupe už údaje nezhromažďujeme. Každý jednotlivý bod je vykreslený. To si vyžaduje prvky bodového grafu, však? Ak uvažujete o bodovom grafe, vykreslíme každý jednotlivý bod na súradniciach X a Y.

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Nakoniec tu máme stripplot . To, čo tu robíme, berieme túto distribúciu a my sa náhodne rozptyľujeme. Toto je náhodný proces. Už sa nesnažíme vytvoriť tento distribučný tvar. Problém je v tom, že všetky tieto zhluky na seba narážajú, takže to nemusí byť dobré v závislosti od toho, čo sa snažíte urobiť. Možno ich chcete vyfarbiť podľa skupiny alebo niečo podobné, takže existuje možnosť.

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Môžeme zmeniť chvenie na 0,25 a uvidíme, že keď zväčšujeme chvenie, tieto body sa rozložia o niečo viac.

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Avšak zakaždým, keď ich spustím, budú vyzerať trochu inak. Takže, ak sa toho chcete zbaviť a urobiť to vždy rovnako, môžete importovať numpy ako np . To, čo robí, je to, čo sa nazýva nastavenie náhodného semena.

Zakaždým, keď spustím niečo, čo súvisí s náhodnými číslami, použije sa rovnaké náhodné čísla. Pri opätovnom spustení sa veci nezmenia náhodne. To by mohlo byť dobré pre akýkoľvek druh simulácie, ktorý robíte, čo sa často stáva aj vo vede o údajoch a analytike s touto vizualizáciou. Takže teraz, zakaždým, keď spustím túto zápletku, dostaneme rovnaký pohľad.

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Môžem sem pridať aj pôvod Y a teraz vidíme, že vytvárame bi-variantnú distribúciu. Berieme distribúciu najazdených kilometrov a segmentujeme to podľa pôvodu.

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej




Záver

Toto sú alternatívy k vizualizácii rozdelenia jednej premennej. Všetky majú svoje pre a proti. To neznamená, že nikdy nepoužívajte boxplot alebo histogram, ale len hovoríte, že tu sú niektoré ďalšie možnosti v závislosti od toho, čo sa snažíte ukázať.

Všetky sa dajú vyrobiť rovnako ľahko ako ktorékoľvek iné, keď v Pythone používame funkciu Seaborn. Ak sa chcete dozvedieť viac o , pozrite si odkazy nižšie.

Všetko najlepšie!


Vytvoření tabulky data v LuckyTemplates

Vytvoření tabulky data v LuckyTemplates

Zjistěte, proč je důležité mít vyhrazenou tabulku s daty v LuckyTemplates, a naučte se nejrychlejší a nejefektivnější způsob, jak toho dosáhnout.

LuckyTemplates Mobile Reporting Tipy a techniky

LuckyTemplates Mobile Reporting Tipy a techniky

Tento stručný návod zdůrazňuje funkci mobilního hlášení LuckyTemplates. Ukážu vám, jak můžete efektivně vytvářet přehledy pro mobily.

Profesionální servisní analytické zprávy v LuckyTemplates

Profesionální servisní analytické zprávy v LuckyTemplates

V této ukázce LuckyTemplates si projdeme sestavy ukazující profesionální analýzy služeb od firmy, která má více smluv a zákaznických vztahů.

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Pozrite si kľúčové aktualizácie pre Power Apps a Power Automate a ich výhody a dôsledky pre platformu Microsoft Power Platform.

Bežné funkcie SQL: Prehľad

Bežné funkcie SQL: Prehľad

Objavte niektoré bežné funkcie SQL, ktoré môžeme použiť, ako napríklad reťazec, dátum a niektoré pokročilé funkcie na spracovanie alebo manipuláciu s údajmi.

Vytvoření šablony LuckyTemplates: Průvodce a tipy

Vytvoření šablony LuckyTemplates: Průvodce a tipy

V tomto tutoriálu se naučíte, jak vytvořit dokonalou šablonu LuckyTemplates, která je nakonfigurována podle vašich potřeb a preferencí.

Parametry pole a malé násobky v LuckyTemplates

Parametry pole a malé násobky v LuckyTemplates

V tomto blogu si ukážeme, jak vrstvit parametry pole s malými násobky, abychom vytvořili neuvěřitelně užitečné přehledy a vizuály.

LuckyTemplates Rank a vlastní seskupení

LuckyTemplates Rank a vlastní seskupení

V tomto blogu se dozvíte, jak používat funkce hodnocení LuckyTemplates a vlastní seskupování k segmentaci ukázkových dat a jejich seřazení podle kritérií.

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

V tomto tutoriálu se budu zabývat konkrétní technikou, jak zobrazit kumulativní součet pouze do určitého data ve vašich vizuálech v LuckyTemplates.

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Naučte se vytvářet a přizpůsobovat Bullet grafy v LuckyTemplates, které se používají hlavně pro měření výkonu oproti cílovým nebo předchozím rokům.