Seaborn-funktion i Python til at visualisere en variabels distribution

Når du arbejder med et datasæt, der består af flere variabler, er det bedst at være i stand til at forstå, hvordan disse adskiller sig og interagerer med hinanden. I denne vejledning vil jeg demonstrere, hvordan du kan bruge Seaborn-funktionen i Python til at visualisere alternativer til en variabels fordeling. Du kan se den fulde video af denne tutorial nederst på denne blog.

Indholdsfortegnelse

Brug af Seaborn-funktionen i Python
Konklusion

Brug af Seaborn-funktionen i Python

Jeg vil demonstrere dette på MPG-datasættet, som er tilgængeligt i Seaborn. Så lad os gå videre og importere alle pakker, vi har brug for, såvel som alle data, vi har brug for. Vi skal se på fordelingen af MPG-variablen her, og hvordan de varierer. De to almindelige måder at gøre det på er histogram og boxplot .

Seaborn-funktion i Python til at visualisere en variabels distribution

Så jeg vil bruge displot -funktionen (DIS til distribution). Så skal jeg specificere, hvilket datasæt det er, og hvilken variabel vi skal placere på X-aksen. Og dermed har vi fordelingen.

Det her er ret godt. Dette er meget nemt at se hele fordelingen og formen. Et par mangler ved denne visualisering af distributionen dog. Den ene er, at antallet af skraldespande, vi bruger, formentlig er vilkårligt. Den anden ting er, at vi ikke nødvendigvis kan vide øjeblikkeligt, hvad middelværdien af variablen er.

Seaborn-funktion i Python til at visualisere en variabels distribution

Det fine med Seaborn er, at når jeg først har sat op, hvilken variabel jeg vil have, hvor og hvilket datasæt jeg bruger, er det virkelig plug-and-chug med at lave ny visualisering. Nu skal vi til boxplot. Boxplot bruger ikke skraldespande.

Ideen her er, at vi kan se kvartilværdien virkelig klart, medianen specifikt, og vi ser de andre kvartilværdier. Vi ser, at der er en outlier, og det er et meget præcist plot. Problemet boxplot er, at det er præcist med ting, som generelt mange forretningsbrugere nok ikke er ligeglade med.

Seaborn-funktion i Python til at visualisere en variabels distribution

Så dette plot er lidt svært for ikke-statistiske folk at få rigtig meget værdi. Og igen, det samler dataene, så vi mister en masse detaljer. Det er svært at vide præcis, hvordan det her ser ud. Vi kan se, at der er en outlier. Vi kan se de fleste af værdierne er her. Histogrammet giver os en mere intuitiv måde at se det på.

Det er begge gode plots. De har begge deres formål. Lad os se på nogle alternativer ved at bruge Seaborn til at visualisere. Vi vil holde os til MPG for fordelingen af den variabel.

I lighed med boxplot kan du her se, at medianen er tydeligt markeret. Vi ser også kvartilområdet, og vi kan få et bedre indblik i, hvad den overordnede fordeling er. Dette er også lidt ligesom et histogram. Det kaldes et kernedensitetsestimatplot eller KDE-plot. Det er en glat version af histogrammet. Vi bruger ikke nogen vilkårlig binning. Alt er glattet ind i et kontinuerligt område her.

Seaborn-funktion i Python til at visualisere en variabels distribution

Dette er en slags hybrid af disse to tilgange og tager sig virkelig af nogle af manglerne. Men afhængigt af dit publikum kan de virkelig kæmpe med at se på dette. De er måske ikke vant til det, men det har nogle fordele i forhold til de traditionelle tilgange.

I denne tilgang samler vi ikke dataene længere. Hvert enkelt punkt er plottet. Dette tager elementer af scatter-plot, ikke? Hvis du tænker på et spredningsplot, plotter vi hvert enkelt punkt på X- og Y-koordinaterne.

Seaborn-funktion i Python til at visualisere en variabels distribution

Til sidst har vi stripplottet . Det, vi gør her, er at tage den fordeling, og vi spreder tilfældigt. Dette er en tilfældig proces. Vi forsøger ikke at skabe den distributionsform længere. Problemet med dette er, at vi har alle disse klumper, der løber ind i hinanden, så det er måske ikke godt, afhængigt af hvad du prøver at gøre. Måske vil du farvelægge disse gruppevis eller lignende, så det er der mulighed for.

Seaborn-funktion i Python til at visualisere en variabels distribution

Vi kan ændre jitteren til 0,25 og se, at når vi øger jitteren, spredes disse punkter lidt mere ud.

Seaborn-funktion i Python til at visualisere en variabels distribution

Men hver gang jeg kører dem, kommer de til at se lidt anderledes ud. Så hvis du vil slippe af med det og gøre det det samme hver gang, kan du importere numpy som np . Hvad dette gør, er det, der kaldes at sætte et tilfældigt frø.

Hver gang jeg kører noget, der har med tilfældige tal at gøre, vil det bruge de samme tilfældige tal. Tingene ændrer sig ikke tilfældigt, når du kører det igen. Dette kan være godt for enhver form for simulering, du laver, hvilket også sker meget inden for datavidenskab og analyse med denne visualisering. Så nu, hver gang jeg kører dette plot, vil vi få det samme udseende af det.

Seaborn-funktion i Python til at visualisere en variabels distribution

Jeg kan også tilføje Y-oprindelse her, og nu ser vi, at vi opretter en bi-variant fordeling. Vi tager kilometerfordelingen og segmenterer den efter oprindelse.

Seaborn-funktion i Python til at visualisere en variabels distribution

Konklusion

Disse er alternativer til at visualisere fordelinger af én variabel. De har alle deres fordele og ulemper. Dette er ikke til at sige, brug aldrig boxplotten eller histogrammet, men det siger bare, her er nogle andre muligheder, afhængigt af hvad du prøver at vise.

De er alle stort set lige så nemme at lave som nogen af de andre, når vi bruger Seaborn-funktionen i Python. Hvis du vil vide mere om , så tjek nedenstående links.

Alt det bedste!

Efterlad en kommentar

Oplev unik indsigt ved hjælp af LuckyTemplates TOPN-funktion

Oplev unik indsigt ved hjælp af LuckyTemplates TOPN-funktion

Denne blog indeholder LuckyTemplates TOPN DAX-funktionen, som giver dig mulighed for at få unik indsigt fra dine data, hvilket hjælper dig med at træffe bedre markedsføringsbeslutninger.

Oprettelse af en datotabel i LuckyTemplates

Oprettelse af en datotabel i LuckyTemplates

Find ud af, hvorfor det er vigtigt at have en dedikeret datotabel i LuckyTemplates, og lær den hurtigste og mest effektive måde at gøre det på.

LuckyTemplates Mobile Reporting Tips og teknikker

LuckyTemplates Mobile Reporting Tips og teknikker

Denne korte vejledning fremhæver LuckyTemplates mobilrapporteringsfunktion. Jeg vil vise dig, hvordan du kan udvikle rapporter effektivt til mobilenheder.

Professionelle serviceanalyserapporter i LuckyTemplates

Professionelle serviceanalyserapporter i LuckyTemplates

I denne LuckyTemplates Showcase gennemgår vi rapporter, der viser professionel serviceanalyse fra et firma, der har flere kontrakter og kundeengagementer.

Almindelige SQL-funktioner: En oversigt

Almindelige SQL-funktioner: En oversigt

Opdag nogle almindelige SQL-funktioner, som vi kan bruge, såsom streng, dato og nogle avancerede funktioner til at behandle eller manipulere data.

Microsoft Power Platform-opdateringer | Microsoft Ignite 2021

Microsoft Power Platform-opdateringer | Microsoft Ignite 2021

Gå gennem de vigtigste opdateringer til Power Apps og Power Automate og deres fordele og implikationer for Microsoft Power Platform.

Feltparametre og små multipler i LuckyTemplates

Feltparametre og små multipler i LuckyTemplates

I denne blog vil vi demonstrere, hvordan man lagdelte feltparametre med små multipler for at skabe utrolig nyttig indsigt og visuals.

LuckyTemplates skabelonoprettelse: Guide og tips

LuckyTemplates skabelonoprettelse: Guide og tips

I denne tutorial lærer du, hvordan du opretter din perfekte LuckyTemplates-skabelon, der er konfigureret til dine behov og præferencer.

LuckyTemplates-rangering og brugerdefineret gruppering

LuckyTemplates-rangering og brugerdefineret gruppering

I denne blog vil du lære, hvordan du bruger LuckyTemplates rangerings- og brugerdefinerede grupperingsfunktioner til at segmentere et eksempeldata og rangordne det efter kriterier.

Punktdiagrammer: Avancerede brugerdefinerede billeder til Lucky Templates

Punktdiagrammer: Avancerede brugerdefinerede billeder til Lucky Templates

Lær, hvordan du opretter og tilpasser Bullet-diagrammer i LuckyTemplates, som hovedsageligt bruges til at måle ydeevne i forhold til mål eller tidligere år.