Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Når du arbeider med et datasett som består av flere variabler, er det best å kunne forstå hvordan disse er forskjellige og interagerer med hverandre. I denne opplæringen skal jeg demonstrere hvordan du kan bruke Seaborn-funksjonen i Python for å visualisere alternativer til en variabels distribusjon. Du kan se hele videoen av denne opplæringen nederst på denne bloggen.

Innholdsfortegnelse

Bruke Seaborn-funksjonen i Python

Jeg vil demonstrere dette på MPG-datasettet, som er tilgjengelig i Seaborn. Så la oss gå videre og importere alle pakker vi trenger, så vel som alle data vi trenger. Vi skal se på fordelingen av MPG-variabelen her og hvordan de varierer. De to vanlige måtene å gjøre det på er histogram og boxplot .

Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Så jeg kommer til å bruke displot- funksjonen (DIS for distribusjon). Deretter må jeg spesifisere hvilket datasett det er og hvilken variabel vi skal sette på X-aksen. Og med det har vi fordelingen.

Dette er ganske bra. Dette er veldig enkelt å se hele fordelingen og formen. Et par mangler med denne visualiseringen av distribusjonen skjønt. Den ene er at antallet hyller vi bruker uten tvil er vilkårlig. Den andre tingen er at vi ikke nødvendigvis umiddelbart kan vite hva gjennomsnittet av variabelen er.

Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Det fine med Seaborn er at når jeg først har satt opp hvilken variabel jeg vil ha, hvor og hvilket datasett jeg bruker, er det virkelig plug-and-chug med å lage ny visualisering. Nå skal vi gå til boxplot. Boxplot bruker ikke søppelkasser.

Tanken her er at vi kan se kvartilverdien veldig tydelig, medianen spesifikt, og vi ser de andre kvartilverdiene. Vi ser at det er en ytterside, og dette er et veldig presist plot. Problemet er at det er nøyaktig med ting som generelt mange forretningsbrukere sannsynligvis ikke bryr seg om.

Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Så, dette plottet er litt vanskelig for ikke-statistikker å virkelig få mye verdi. Og igjen, det samler dataene, så vi mister mange detaljer. Det er vanskelig å vite nøyaktig hvordan dette ser ut. Vi kan se at det er en ytterside. Vi kan se de fleste verdiene er her. Histogrammet gir oss en mer intuitiv måte å se det på.

Dette er begge gode tomter. De har begge sine formål. La oss se på noen alternativer ved å bruke Seaborn til å visualisere. Vi kommer til å holde oss til MPG for distribusjonen av den variabelen.

I likhet med boxplot kan du se her at medianen er tydelig markert. Vi ser også kvartilområdet, og vi kan se bedre på hvordan den totale fordelingen er. Dette er litt som et histogram også. Det kalles et kjernedensitetsestimatplott eller KDE-plott. Det er en jevn versjon av histogrammet. Vi bruker ingen vilkårlig binning. Alt er jevnet ut i et kontinuerlig område her.

Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Dette er en slags hybrid av disse to tilnærmingene og tar virkelig vare på noen av manglene. Men, avhengig av publikummet ditt, kan de virkelig slite med å se på dette. De er kanskje ikke vant til det, men det har noen fordeler med de tradisjonelle tilnærmingene.

I denne tilnærmingen samler vi ikke dataene lenger. Hvert enkelt punkt er plottet. Dette tar elementer av scatter plot, ikke sant? Hvis du tenker på et spredningsplott, plotter vi hvert enkelt punkt på X- og Y-koordinatene.

Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Til slutt har vi stripplottet . Det vi gjør her er å ta den fordelingen og vi sprer tilfeldig. Dette er en tilfeldig prosess. Vi prøver ikke å lage den distribusjonen lenger. Problemet med dette er at vi har alle disse klumpene som løper inn i hverandre, så det er kanskje ikke bra avhengig av hva du prøver å gjøre. Kanskje du vil farge disse etter gruppe eller noe sånt, så det er en mulighet for det.

Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Vi kan endre jitteren til 0,25 og se at når vi øker jitteren, blir disse punktene spredt litt mer.

Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Men hver gang jeg kjører dem, kommer de til å se litt annerledes ut. Så hvis du vil bli kvitt det og gjøre det likt hver gang, kan du importere numpy som np . Det dette gjør er det som kalles å sette et tilfeldig frø.

Hver gang jeg kjører noe som har med tilfeldige tall å gjøre, kommer det til å bruke de samme tilfeldige tallene. Ting endres ikke tilfeldig når du kjører den på nytt. Dette kan være bra for enhver form for simulering du gjør, noe som skjer mye innen datavitenskap og analyse med denne visualiseringen også. Så nå, hver gang jeg kjører dette plottet, kommer vi til å få det samme utseendet på det.

Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Jeg kan også legge til Y-opprinnelse her, og nå ser vi at vi lager en bi-variant fordeling. Vi tar fordelingen av kilometer og segmenterer den etter opprinnelse.

Seaborn-funksjon i Python for å visualisere en variabels distribusjon




Konklusjon

Dette er alternativer til å visualisere distribusjoner av én variabel. De har alle sine fordeler og ulemper. Dette er ikke å si, bruk aldri boxplotten eller histogrammet, men det er bare å si, her er noen andre alternativer, avhengig av hva du prøver å vise.

De er alle ganske like enkle å lage som noen av de andre når vi bruker Seaborn-funksjonen i Python. Hvis du vil vite mer om , sjekk ut lenkene nedenfor.

Beste ønsker!


LuckyTemplates What-If-parameterfunksjon

LuckyTemplates What-If-parameterfunksjon

Denne bloggen introduserer den nye funksjonen i LuckyTemplates, What-If-analyseparameteren. Du vil se hvordan det gjør alt raskt og enkelt for scenarioanalysen din.

Bruk LuckyTemplates Mål forgrening for å sjekke om marginene dine øker ettersom inntektene vokser

Bruk LuckyTemplates Mål forgrening for å sjekke om marginene dine øker ettersom inntektene vokser

Finn ut hvordan du kan finne ut om inntektsveksten din er god ved å sjekke om marginene dine økte ved å bruke LuckyTemplates som måler forgrening.

LuckyTemplates Parameters Via Query Editor

LuckyTemplates Parameters Via Query Editor

Lær og forstå hvordan du kan lage og bruke LuckyTemplates Parameters som er en kraftig funksjon i spørringsredigereren.

Rundt stolpediagram – en visualisering for dashbordet ditt

Rundt stolpediagram – en visualisering for dashbordet ditt

Denne opplæringen vil diskutere hvordan du lager et rundt søylediagram ved hjelp av Charticulator. Du vil lære hvordan du designer dem for LuckyTemplates-rapporten.

PowerApps funksjoner og formler | En introduksjon

PowerApps funksjoner og formler | En introduksjon

Lær hvordan du bruker PowerApps-funksjoner og -formler for å forbedre funksjonaliteten og endre atferd i Power Apps-lerretsappen vår.

Pipe In R: Koblingsfunksjoner med Dplyr

Pipe In R: Koblingsfunksjoner med Dplyr

I denne opplæringen lærer du hvordan du kobler funksjoner sammen ved å bruke dplyr-røroperatøren i programmeringsspråket R.

RANKX Deep Dive: A LuckyTemplates DAX-funksjon

RANKX Deep Dive: A LuckyTemplates DAX-funksjon

RANKX fra LuckyTemplates lar deg returnere rangeringen til et spesifikt tall i hver tabellrad som utgjør en del av en liste med tall.

Trekker ut LuckyTemplates-temaer og bilder fra PBIX

Trekker ut LuckyTemplates-temaer og bilder fra PBIX

Lær hvordan du demonterer en PBIX-fil for å trekke ut LuckyTemplates-temaer og bilder fra bakgrunnen og bruke den til å lage rapporten din!

Excel Formulas Cheat Sheet: Mellomveiledning

Excel Formulas Cheat Sheet: Mellomveiledning

Excel Formulas Cheat Sheet: Mellomveiledning

LuckyTemplates-kalendertabell: Hva er det og hvordan du bruker det

LuckyTemplates-kalendertabell: Hva er det og hvordan du bruker det

LuckyTemplates-kalendertabell: Hva er det og hvordan du bruker det