Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Når du arbeider med et datasett som består av flere variabler, er det best å kunne forstå hvordan disse er forskjellige og interagerer med hverandre. I denne opplæringen skal jeg demonstrere hvordan du kan bruke Seaborn-funksjonen i Python for å visualisere alternativer til en variabels distribusjon. Du kan se hele videoen av denne opplæringen nederst på denne bloggen.

Innholdsfortegnelse

Bruke Seaborn-funksjonen i Python

Jeg vil demonstrere dette på MPG-datasettet, som er tilgjengelig i Seaborn. Så la oss gå videre og importere alle pakker vi trenger, så vel som alle data vi trenger. Vi skal se på fordelingen av MPG-variabelen her og hvordan de varierer. De to vanlige måtene å gjøre det på er histogram og boxplot .

Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Så jeg kommer til å bruke displot- funksjonen (DIS for distribusjon). Deretter må jeg spesifisere hvilket datasett det er og hvilken variabel vi skal sette på X-aksen. Og med det har vi fordelingen.

Dette er ganske bra. Dette er veldig enkelt å se hele fordelingen og formen. Et par mangler med denne visualiseringen av distribusjonen skjønt. Den ene er at antallet hyller vi bruker uten tvil er vilkårlig. Den andre tingen er at vi ikke nødvendigvis umiddelbart kan vite hva gjennomsnittet av variabelen er.

Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Det fine med Seaborn er at når jeg først har satt opp hvilken variabel jeg vil ha, hvor og hvilket datasett jeg bruker, er det virkelig plug-and-chug med å lage ny visualisering. Nå skal vi gå til boxplot. Boxplot bruker ikke søppelkasser.

Tanken her er at vi kan se kvartilverdien veldig tydelig, medianen spesifikt, og vi ser de andre kvartilverdiene. Vi ser at det er en ytterside, og dette er et veldig presist plot. Problemet er at det er nøyaktig med ting som generelt mange forretningsbrukere sannsynligvis ikke bryr seg om.

Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Så, dette plottet er litt vanskelig for ikke-statistikker å virkelig få mye verdi. Og igjen, det samler dataene, så vi mister mange detaljer. Det er vanskelig å vite nøyaktig hvordan dette ser ut. Vi kan se at det er en ytterside. Vi kan se de fleste verdiene er her. Histogrammet gir oss en mer intuitiv måte å se det på.

Dette er begge gode tomter. De har begge sine formål. La oss se på noen alternativer ved å bruke Seaborn til å visualisere. Vi kommer til å holde oss til MPG for distribusjonen av den variabelen.

I likhet med boxplot kan du se her at medianen er tydelig markert. Vi ser også kvartilområdet, og vi kan se bedre på hvordan den totale fordelingen er. Dette er litt som et histogram også. Det kalles et kjernedensitetsestimatplott eller KDE-plott. Det er en jevn versjon av histogrammet. Vi bruker ingen vilkårlig binning. Alt er jevnet ut i et kontinuerlig område her.

Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Dette er en slags hybrid av disse to tilnærmingene og tar virkelig vare på noen av manglene. Men, avhengig av publikummet ditt, kan de virkelig slite med å se på dette. De er kanskje ikke vant til det, men det har noen fordeler med de tradisjonelle tilnærmingene.

I denne tilnærmingen samler vi ikke dataene lenger. Hvert enkelt punkt er plottet. Dette tar elementer av scatter plot, ikke sant? Hvis du tenker på et spredningsplott, plotter vi hvert enkelt punkt på X- og Y-koordinatene.

Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Til slutt har vi stripplottet . Det vi gjør her er å ta den fordelingen og vi sprer tilfeldig. Dette er en tilfeldig prosess. Vi prøver ikke å lage den distribusjonen lenger. Problemet med dette er at vi har alle disse klumpene som løper inn i hverandre, så det er kanskje ikke bra avhengig av hva du prøver å gjøre. Kanskje du vil farge disse etter gruppe eller noe sånt, så det er en mulighet for det.

Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Vi kan endre jitteren til 0,25 og se at når vi øker jitteren, blir disse punktene spredt litt mer.

Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Men hver gang jeg kjører dem, kommer de til å se litt annerledes ut. Så hvis du vil bli kvitt det og gjøre det likt hver gang, kan du importere numpy som np . Det dette gjør er det som kalles å sette et tilfeldig frø.

Hver gang jeg kjører noe som har med tilfeldige tall å gjøre, kommer det til å bruke de samme tilfeldige tallene. Ting endres ikke tilfeldig når du kjører den på nytt. Dette kan være bra for enhver form for simulering du gjør, noe som skjer mye innen datavitenskap og analyse med denne visualiseringen også. Så nå, hver gang jeg kjører dette plottet, kommer vi til å få det samme utseendet på det.

Seaborn-funksjon i Python for å visualisere en variabels distribusjon

Jeg kan også legge til Y-opprinnelse her, og nå ser vi at vi lager en bi-variant fordeling. Vi tar fordelingen av kilometer og segmenterer den etter opprinnelse.

Seaborn-funksjon i Python for å visualisere en variabels distribusjon




Konklusjon

Dette er alternativer til å visualisere distribusjoner av én variabel. De har alle sine fordeler og ulemper. Dette er ikke å si, bruk aldri boxplotten eller histogrammet, men det er bare å si, her er noen andre alternativer, avhengig av hva du prøver å vise.

De er alle ganske like enkle å lage som noen av de andre når vi bruker Seaborn-funksjonen i Python. Hvis du vil vite mer om , sjekk ut lenkene nedenfor.

Beste ønsker!


DAX Studio EVALUATE Nøkkelord: Grunnleggende eksempler

DAX Studio EVALUATE Nøkkelord: Grunnleggende eksempler

Lær å bruke DAX Studio EVALUATE nøkkelordet med grunnleggende eksempler og få en bedre forståelse av hvordan dette kan hjelpe deg med databehandling.

Opprette en datotabell i LuckyTemplates

Opprette en datotabell i LuckyTemplates

Finn ut hvorfor det er viktig å ha en dedikert datotabell i LuckyTemplates, og lær den raskeste og mest effektive måten å gjøre det på.

LuckyTemplates Mobile Reporting Tips og teknikker

LuckyTemplates Mobile Reporting Tips og teknikker

Denne korte opplæringen fremhever LuckyTemplates mobilrapporteringsfunksjon. Jeg skal vise deg hvordan du kan utvikle rapporter effektivt for mobil.

Profesjonelle tjenesteanalyserapporter i LuckyTemplates

Profesjonelle tjenesteanalyserapporter i LuckyTemplates

I denne LuckyTemplates-utstillingen vil vi gå gjennom rapporter som viser profesjonell tjenesteanalyse fra et firma som har flere kontrakter og kundeengasjementer.

Microsoft Power Platform-oppdateringer | Microsoft Ignite 2021

Microsoft Power Platform-oppdateringer | Microsoft Ignite 2021

Gå gjennom de viktigste oppdateringene for Power Apps og Power Automate og deres fordeler og implikasjoner for Microsoft Power Platform.

Vanlige SQL-funksjoner: en oversikt

Vanlige SQL-funksjoner: en oversikt

Oppdag noen vanlige SQL-funksjoner som vi kan bruke som streng, dato og noen avanserte funksjoner for å behandle eller manipulere data.

LuckyTemplates Template Creation: Guide og tips

LuckyTemplates Template Creation: Guide og tips

I denne opplæringen lærer du hvordan du lager din perfekte LuckyTemplates-mal som er konfigurert til dine behov og preferanser.

Feltparametre og små multipler i LuckyTemplates

Feltparametre og små multipler i LuckyTemplates

I denne bloggen vil vi demonstrere hvordan du legger feltparametere sammen med små multipler for å skape utrolig nyttig innsikt og grafikk.

LuckyTemplates-rangering og tilpasset gruppering

LuckyTemplates-rangering og tilpasset gruppering

I denne bloggen vil du lære hvordan du bruker LuckyTemplates rangering og tilpassede grupperingsfunksjoner for å segmentere et eksempeldata og rangere det i henhold til kriterier.

Viser kun kumulativ total opp til en bestemt dato i LuckyTemplates

Viser kun kumulativ total opp til en bestemt dato i LuckyTemplates

I denne opplæringen skal jeg dekke en spesifikk teknikk rundt hvordan du viser kumulativ total kun opp til en bestemt dato i grafikken i LuckyTemplates.