Seaborn-funktion i Python til at visualisere en variabels distribution

Når du arbejder med et datasæt, der består af flere variabler, er det bedst at være i stand til at forstå, hvordan disse adskiller sig og interagerer med hinanden. I denne vejledning vil jeg demonstrere, hvordan du kan bruge Seaborn-funktionen i Python til at visualisere alternativer til en variabels fordeling. Du kan se den fulde video af denne tutorial nederst på denne blog.

Indholdsfortegnelse

Brug af Seaborn-funktionen i Python

Jeg vil demonstrere dette på MPG-datasættet, som er tilgængeligt i Seaborn. Så lad os gå videre og importere alle pakker, vi har brug for, såvel som alle data, vi har brug for. Vi skal se på fordelingen af ​​MPG-variablen her, og hvordan de varierer. De to almindelige måder at gøre det på er histogram og boxplot .

Seaborn-funktion i Python til at visualisere en variabels distribution

Så jeg vil bruge displot -funktionen (DIS til distribution). Så skal jeg specificere, hvilket datasæt det er, og hvilken variabel vi skal placere på X-aksen. Og dermed har vi fordelingen.

Det her er ret godt. Dette er meget nemt at se hele fordelingen og formen. Et par mangler ved denne visualisering af distributionen dog. Den ene er, at antallet af skraldespande, vi bruger, formentlig er vilkårligt. Den anden ting er, at vi ikke nødvendigvis kan vide øjeblikkeligt, hvad middelværdien af ​​variablen er.

Seaborn-funktion i Python til at visualisere en variabels distribution

Det fine med Seaborn er, at når jeg først har sat op, hvilken variabel jeg vil have, hvor og hvilket datasæt jeg bruger, er det virkelig plug-and-chug med at lave ny visualisering. Nu skal vi til boxplot. Boxplot bruger ikke skraldespande.

Ideen her er, at vi kan se kvartilværdien virkelig klart, medianen specifikt, og vi ser de andre kvartilværdier. Vi ser, at der er en outlier, og det er et meget præcist plot. Problemet boxplot er, at det er præcist med ting, som generelt mange forretningsbrugere nok ikke er ligeglade med.

Seaborn-funktion i Python til at visualisere en variabels distribution

Så dette plot er lidt svært for ikke-statistiske folk at få rigtig meget værdi. Og igen, det samler dataene, så vi mister en masse detaljer. Det er svært at vide præcis, hvordan det her ser ud. Vi kan se, at der er en outlier. Vi kan se de fleste af værdierne er her. Histogrammet giver os en mere intuitiv måde at se det på.

Det er begge gode plots. De har begge deres formål. Lad os se på nogle alternativer ved at bruge Seaborn til at visualisere. Vi vil holde os til MPG for fordelingen af ​​den variabel.

I lighed med boxplot kan du her se, at medianen er tydeligt markeret. Vi ser også kvartilområdet, og vi kan få et bedre indblik i, hvad den overordnede fordeling er. Dette er også lidt ligesom et histogram. Det kaldes et kernedensitetsestimatplot eller KDE-plot. Det er en glat version af histogrammet. Vi bruger ikke nogen vilkårlig binning. Alt er glattet ind i et kontinuerligt område her.

Seaborn-funktion i Python til at visualisere en variabels distribution

Dette er en slags hybrid af disse to tilgange og tager sig virkelig af nogle af manglerne. Men afhængigt af dit publikum kan de virkelig kæmpe med at se på dette. De er måske ikke vant til det, men det har nogle fordele i forhold til de traditionelle tilgange.

I denne tilgang samler vi ikke dataene længere. Hvert enkelt punkt er plottet. Dette tager elementer af scatter-plot, ikke? Hvis du tænker på et spredningsplot, plotter vi hvert enkelt punkt på X- og Y-koordinaterne.

Seaborn-funktion i Python til at visualisere en variabels distribution

Til sidst har vi stripplottet . Det, vi gør her, er at tage den fordeling, og vi spreder tilfældigt. Dette er en tilfældig proces. Vi forsøger ikke at skabe den distributionsform længere. Problemet med dette er, at vi har alle disse klumper, der løber ind i hinanden, så det er måske ikke godt, afhængigt af hvad du prøver at gøre. Måske vil du farvelægge disse gruppevis eller lignende, så det er der mulighed for.

Seaborn-funktion i Python til at visualisere en variabels distribution

Vi kan ændre jitteren til 0,25 og se, at når vi øger jitteren, spredes disse punkter lidt mere ud.

Seaborn-funktion i Python til at visualisere en variabels distribution

Men hver gang jeg kører dem, kommer de til at se lidt anderledes ud. Så hvis du vil slippe af med det og gøre det det samme hver gang, kan du importere numpy som np . Hvad dette gør, er det, der kaldes at sætte et tilfældigt frø.

Hver gang jeg kører noget, der har med tilfældige tal at gøre, vil det bruge de samme tilfældige tal. Tingene ændrer sig ikke tilfældigt, når du kører det igen. Dette kan være godt for enhver form for simulering, du laver, hvilket også sker meget inden for datavidenskab og analyse med denne visualisering. Så nu, hver gang jeg kører dette plot, vil vi få det samme udseende af det.

Seaborn-funktion i Python til at visualisere en variabels distribution

Jeg kan også tilføje Y-oprindelse her, og nu ser vi, at vi opretter en bi-variant fordeling. Vi tager kilometerfordelingen og segmenterer den efter oprindelse.

Seaborn-funktion i Python til at visualisere en variabels distribution




Konklusion

Disse er alternativer til at visualisere fordelinger af én variabel. De har alle deres fordele og ulemper. Dette er ikke til at sige, brug aldrig boxplotten eller histogrammet, men det siger bare, her er nogle andre muligheder, afhængigt af hvad du prøver at vise.

De er alle stort set lige så nemme at lave som nogen af ​​de andre, når vi bruger Seaborn-funktionen i Python. Hvis du vil vide mere om , så tjek nedenstående links.

Alt det bedste!


Pipe In R: Tilslutningsfunktioner med Dplyr

Pipe In R: Tilslutningsfunktioner med Dplyr

I denne øvelse lærer du, hvordan du kæder funktioner sammen ved hjælp af dplyr-røroperatoren i programmeringssproget R.

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX fra LuckyTemplates giver dig mulighed for at returnere rangeringen af ​​et specifikt tal i hver tabelrække, der udgør en del af en liste over tal.

Udpakning af LuckyTemplates-temaer og -billeder fra PBIX

Udpakning af LuckyTemplates-temaer og -billeder fra PBIX

Lær, hvordan du adskiller en PBIX-fil for at udtrække LuckyTemplates-temaer og -billeder fra baggrunden og bruge den til at oprette din rapport!

Excel Formler Snydeark: Mellemvejledning

Excel Formler Snydeark: Mellemvejledning

Excel Formler Snydeark: Mellemvejledning

LuckyTemplates kalendertabel: Hvad er det, og hvordan man bruger det

LuckyTemplates kalendertabel: Hvad er det, og hvordan man bruger det

LuckyTemplates kalendertabel: Hvad er det, og hvordan man bruger det

Python i LuckyTemplates: Sådan installeres og konfigureres

Python i LuckyTemplates: Sådan installeres og konfigureres

Lær, hvordan du installerer programmeringssproget Python i LuckyTemplates, og hvordan du bruger dets værktøjer til at skrive koder og vise billeder.

Beregning af dynamiske fortjenestemargener – nem analyse af LuckyTemplates med DAX

Beregning af dynamiske fortjenestemargener – nem analyse af LuckyTemplates med DAX

Lær, hvordan du beregner dynamiske fortjenstmargener ved siden af ​​LuckyTemplates, og hvordan du kan få mere indsigt ved at grave dybere ned i resultaterne.

Sortering af datotabelkolonner i LuckyTemplates

Sortering af datotabelkolonner i LuckyTemplates

Lær, hvordan du sorterer felterne fra kolonner med udvidet datotabel korrekt. Dette er en god strategi at gøre for vanskelige felter.

Find dine topprodukter for hver region i LuckyTemplates ved hjælp af DAX

Find dine topprodukter for hver region i LuckyTemplates ved hjælp af DAX

I denne artikel gennemgår jeg, hvordan du kan finde dine topprodukter pr. region ved hjælp af DAX-beregninger i LuckyTemplates, herunder funktionerne TOPN og CALCUATE.

Junk Dimension: Hvad er det, og hvorfor det er alt andet end junk

Junk Dimension: Hvad er det, og hvorfor det er alt andet end junk

Lær, hvordan du bruger en uønsket dimension til flag med lav kardinalitet, som du ønsker at inkorporere i din datamodel på en effektiv måde.