Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Pri práci s množinou údajov, ktorá sa skladá z viacerých premenných, je najlepšie vedieť pochopiť, ako sa tieto odlišujú a ako sa navzájom ovplyvňujú. V tomto návode ukážem, ako môžete použiť funkciu Seaborn v Pythone na vizualizáciu alternatív k distribúcii premennej. Celé video tohto návodu si môžete pozrieť v spodnej časti tohto blogu.

Obsah

Používanie funkcie Seaborn v Pythone

Ukážem to na súbore údajov MPG, ktorý je dostupný v rámci Seaborn. Pokračujme teda a importujme všetky balíky, ktoré potrebujeme, ako aj všetky údaje, ktoré potrebujeme. Tu sa pozrieme na distribúciu premennej MPG a na to, ako sa líšia. Dva bežné spôsoby, ako to urobiť, sú histogram a boxplot .

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Takže použijem funkciu displot (DIS pre distribúciu). Potom musím špecifikovať, o aký súbor údajov ide a akú premennú umiestnime na os X. A s tým máme distribúciu.

Toto je celkom dobré. Toto je veľmi ľahké vidieť celé rozloženie a tvar. Pár nedostatkov s touto vizualizáciou distribúcie však. Jedným z nich je, že počet zásobníkov, ktoré používame, je pravdepodobne ľubovoľný. Ďalšia vec je, že nemôžeme okamžite vedieť, aký je priemer premennej.

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Na Seaborn je pekné, že akonáhle si nastavím, akú premennú chcem, kde a aký súbor údajov používam, je to naozaj jednoduché s vytváraním novej vizualizácie. Teraz prejdeme k boxplotu. Boxplot nepoužíva koše.

Ide o to, že kvartilovú hodnotu vidíme naozaj jasne, konkrétne medián, a vidíme ostatné kvartilové hodnoty. Vidíme, že je tu odľahlá hodnota a toto je veľmi presná zápletka. Problém je v tom, že je presný vo veciach, o ktoré sa vo všeobecnosti veľa podnikových používateľov pravdepodobne nestará.

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Takže pre ľudí, ktorí nie sú štatistikami, je tento pozemok trochu ťažké získať skutočne veľkú hodnotu. A opäť agreguje dáta, takže prichádzame o veľa detailov. Je ťažké presne vedieť, ako to vyzerá. Vidíme, že je tu odľahlá hodnota. Vidíme, že väčšina hodnôt je tu. Histogram nám poskytuje intuitívnejší spôsob, ako sa na to pozrieť.

Obe sú to dobré zápletky. Obaja majú svoje ciele. Pozrime sa na niektoré alternatívy pomocou Seaborn na vizualizáciu. Pri distribúcii tejto premennej zostaneme pri MPG.

Podobne ako pri boxplote, aj tu môžete vidieť, že medián je jasne vyznačený. Vidíme aj kvartilový rozsah a môžeme sa lepšie pozrieť na celkové rozdelenie. Toto je tiež niečo ako histogram. Nazýva sa to graf odhadu hustoty jadra alebo graf KDE. Je to hladká verzia histogramu. Nepoužívame žiadne svojvoľné triedenie. Všetko je tu vyhladené do súvislého rozsahu.

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Toto je akýsi hybrid týchto dvoch prístupov a skutočne sa stará o niektoré nedostatky. V závislosti od vášho publika však môžu mať s pozeraním na toto naozaj problém. Možno na to nie sú zvyknutí, no má to určité výhody oproti tradičným prístupom.

Pri tomto prístupe už údaje nezhromažďujeme. Každý jednotlivý bod je vykreslený. To si vyžaduje prvky bodového grafu, však? Ak uvažujete o bodovom grafe, vykreslíme každý jednotlivý bod na súradniciach X a Y.

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Nakoniec tu máme stripplot . To, čo tu robíme, berieme túto distribúciu a my sa náhodne rozptyľujeme. Toto je náhodný proces. Už sa nesnažíme vytvoriť tento distribučný tvar. Problém je v tom, že všetky tieto zhluky na seba narážajú, takže to nemusí byť dobré v závislosti od toho, čo sa snažíte urobiť. Možno ich chcete vyfarbiť podľa skupiny alebo niečo podobné, takže existuje možnosť.

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Môžeme zmeniť chvenie na 0,25 a uvidíme, že keď zväčšujeme chvenie, tieto body sa rozložia o niečo viac.

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Avšak zakaždým, keď ich spustím, budú vyzerať trochu inak. Takže, ak sa toho chcete zbaviť a urobiť to vždy rovnako, môžete importovať numpy ako np . To, čo robí, je to, čo sa nazýva nastavenie náhodného semena.

Zakaždým, keď spustím niečo, čo súvisí s náhodnými číslami, použije sa rovnaké náhodné čísla. Pri opätovnom spustení sa veci nezmenia náhodne. To by mohlo byť dobré pre akýkoľvek druh simulácie, ktorý robíte, čo sa často stáva aj vo vede o údajoch a analytike s touto vizualizáciou. Takže teraz, zakaždým, keď spustím túto zápletku, dostaneme rovnaký pohľad.

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej

Môžem sem pridať aj pôvod Y a teraz vidíme, že vytvárame bi-variantnú distribúciu. Berieme distribúciu najazdených kilometrov a segmentujeme to podľa pôvodu.

Funkcia Seaborn v Pythone na vizualizáciu distribúcie premennej




Záver

Toto sú alternatívy k vizualizácii rozdelenia jednej premennej. Všetky majú svoje pre a proti. To neznamená, že nikdy nepoužívajte boxplot alebo histogram, ale len hovoríte, že tu sú niektoré ďalšie možnosti v závislosti od toho, čo sa snažíte ukázať.

Všetky sa dajú vyrobiť rovnako ľahko ako ktorékoľvek iné, keď v Pythone používame funkciu Seaborn. Ak sa chcete dozvedieť viac o , pozrite si odkazy nižšie.

Všetko najlepšie!


Ako nainštalovať DAX Studio & Tabular Editor v LuckyTemplates

Ako nainštalovať DAX Studio & Tabular Editor v LuckyTemplates

Zistite, ako stiahnuť a nainštalovať DAX Studio a Tabular Editor 3 a ako ich nakonfigurovať na použitie v LuckyTemplates a v Exceli.

LuckyTemplates Vizualizácia tvarovej mapy pre priestorovú analýzu

LuckyTemplates Vizualizácia tvarovej mapy pre priestorovú analýzu

Tento blog obsahuje vizualizáciu Shape Map pre priestorovú analýzu v LuckyTemplates. Ukážem vám, ako môžete efektívne využiť túto vizualizáciu s jej funkciami a prvkami.

LuckyTemplates Finančné výkazníctvo: Prideľovanie výsledkov šablónam v každom jednom riadku

LuckyTemplates Finančné výkazníctvo: Prideľovanie výsledkov šablónam v každom jednom riadku

V tomto návode predstavujem jedinečný nápad týkajúci sa finančného výkazníctva, ktorý spočíva v prideľovaní výsledkov na vopred určené šablóny tabuliek v rámci LuckyTemplates.

DAX měří v LuckyTemplates pomocí Measure Branching

DAX měří v LuckyTemplates pomocí Measure Branching

Vytvářejte míry DAX v LuckyTemplates pomocí existujících mír nebo vzorců. Tomu říkám technika větvení opatření.

Najvýkonnejšie volanie funkcie v LuckyTemplates

Najvýkonnejšie volanie funkcie v LuckyTemplates

V tomto blogu preskúmajte množinu údajov LuckyTemplates, najvýkonnejšie volanie funkcií, ktoré vám prináša tisíce funkcií M a DAX na dosah ruky.

Techniky modelovania údajov na organizáciu opatrení DAX

Techniky modelovania údajov na organizáciu opatrení DAX

V dnešnom návode sa podelím o niekoľko techník modelovania údajov o tom, ako lepšie usporiadať vaše merania DAX pre efektívnejší pracovný tok.

LuckyTemplates Financial Dashboard: Kompletné tipy na prispôsobenie tabuľky

LuckyTemplates Financial Dashboard: Kompletné tipy na prispôsobenie tabuľky

LuckyTemplates je skvelý nástroj pre finančné výkazníctvo. Tu je návod, ako vytvoriť prispôsobené tabuľky pre váš finančný dashboard LuckyTemplates.

Osvedčené postupy toku jazyka Power Query

Osvedčené postupy toku jazyka Power Query

V tomto návode sa bude diskutovať o toku jazyka Power Query a o tom, ako môže pomôcť vytvoriť hladkú a efektívnu zostavu údajov.

LuckyTemplates vlastní ikony | Vizualizační technika PBI

LuckyTemplates vlastní ikony | Vizualizační technika PBI

Budu diskutovat o jedné z mých oblíbených technik kolem vlastních ikon LuckyTemplates, která používá vlastní ikony dynamickým způsobem ve vizuálech LuckyTemplates.

Vytváření tabulek LuckyTemplates pomocí funkce UNION & ROW

Vytváření tabulek LuckyTemplates pomocí funkce UNION & ROW

V tomto blogu vám ukážu, jak můžete vytvořit tabulky LuckyTemplates pomocí vzorce, který kombinuje funkci UNION a funkci ROW.