Seaborn-funktion i Python för att visualisera en variabels distribution

När du arbetar med en datamängd som består av flera variabler är det bäst att kunna förstå hur dessa skiljer sig åt och interagerar med varandra. I den här handledningen ska jag demonstrera hur du kan använda Seaborn-funktionen i Python för att visualisera alternativ till en variabels fördelning. Du kan se hela videon av denna handledning längst ner på den här bloggen.

Innehållsförteckning

Använder Seaborn-funktionen i Python

Jag kommer att demonstrera detta på MPG-datauppsättningen, som är tillgänglig inom Seaborn. Så låt oss gå vidare och importera alla paket vi behöver samt all data vi behöver. Vi ska titta på fördelningen av MPG-variabeln här och hur de varierar. De två vanliga sätten att göra det är histogram och boxplot .

Seaborn-funktion i Python för att visualisera en variabels distribution

Så jag kommer att använda displotfunktionen (DIS för distribution). Sedan måste jag specificera vilken datamängd det är och vilken variabel vi ska lägga på X-axeln. Och med det har vi fördelningen.

Det här är ganska bra. Detta är mycket lätt att se hela fördelningen och formen. Ett par brister med denna visualisering av distributionen dock. En är att antalet papperskorgar som vi använder utan tvekan är godtyckligt. Den andra saken är att vi inte nödvändigtvis kan veta omedelbart vad medelvärdet av variabeln är.

Seaborn-funktion i Python för att visualisera en variabels distribution

Det fina med Seaborn är att när jag väl har ställt in vilken variabel jag vill ha, var och vilken datauppsättning jag använder, är det verkligen plug-and-chug med att göra ny visualisering. Nu ska vi gå till boxplotten. Boxplot använder inte papperskorgar.

Tanken här är att vi kan se kvartilvärdet riktigt tydligt, medianen specifikt, och vi ser de andra kvartilvärdena. Vi ser att det finns en extremitet, och det här är en mycket exakt handling. Problemet är att det är exakt med saker som i allmänhet många företagsanvändare förmodligen inte bryr sig om.

Seaborn-funktion i Python för att visualisera en variabels distribution

Så den här handlingen är lite svår för icke-statistiska människor att verkligen få mycket värde. Och återigen, det aggregerar data, så vi förlorar mycket detaljer. Det är svårt att veta exakt hur det här ser ut. Vi kan se att det finns en extremist. Vi kan se att de flesta av värdena finns här. Histogrammet ger oss ett mer intuitivt sätt att se på det.

Det är båda bra tomter. De har båda sina syften. Låt oss titta på några alternativ med Seaborn för att visualisera. Vi kommer att hålla fast vid MPG för fördelningen av den variabeln.

I likhet med boxplot kan du se här att medianen är tydligt markerad. Vi ser kvartilintervallet också och vi kan få en bättre koll på vad den övergripande fördelningen är. Det här är lite som ett histogram också. Det kallas en kärndensitetsuppskattningsplot eller KDE-plot. Det är en smidig version av histogrammet. Vi använder ingen godtycklig binning. Allt jämnas ut till ett kontinuerligt intervall här.

Seaborn-funktion i Python för att visualisera en variabels distribution

Detta är en sorts hybrid av dessa två tillvägagångssätt och tar verkligen hand om några av bristerna. Men beroende på din publik kan de verkligen kämpa med att titta på det här. De kanske inte är vana vid det, men det har vissa fördelar med de traditionella metoderna.

I det här tillvägagångssättet samlar vi inte ihop data längre. Varje enskild punkt plottas. Detta tar delar av scatter plot, eller hur? Om du tänker på ett spridningsdiagram plottar vi varje enskild punkt på X- och Y-koordinaterna.

Seaborn-funktion i Python för att visualisera en variabels distribution

Till sist har vi stripplotten . Vad vi gör här är att ta den fördelningen och vi sprider slumpmässigt. Detta är en slumpmässig process. Vi försöker inte skapa den distributionsformen längre. Problemet med detta är att vi har alla dessa klumpar som springer in i varandra, så det kanske inte är bra beroende på vad du försöker göra. Kanske vill du färglägga dessa gruppvis eller liknande, så det finns ett alternativ för det.

Seaborn-funktion i Python för att visualisera en variabels distribution

Vi kan ändra jitter till 0,25 och se att när vi ökar jitter sprids dessa punkter ut lite mer.

Seaborn-funktion i Python för att visualisera en variabels distribution

Men varje gång jag kör dem kommer de att se lite annorlunda ut. Så om du vill bli av med det och göra det samma varje gång, kan du importera numpy som np . Vad detta gör är vad som kallas att sätta ett slumpmässigt frö.

Varje gång jag kör något som har med slumptal att göra, kommer det att använda samma slumptal. Saker och ting förändras inte slumpmässigt när du kör det igen. Detta kan vara bra för alla typer av simuleringar som du gör, vilket händer mycket inom datavetenskap och analys med denna visualisering också. Så nu, varje gång jag kör den här handlingen, kommer vi att få samma utseende på det.

Seaborn-funktion i Python för att visualisera en variabels distribution

Jag kan också lägga till Y-ursprung här, och nu ser vi att vi skapar en bi-variant distribution. Vi tar milfördelningen och segmenterar den efter ursprung.

Seaborn-funktion i Python för att visualisera en variabels distribution




Slutsats

Dessa är alternativ till att visualisera fördelningar av en variabel. De har alla sina för- och nackdelar. Detta är inte att säga, använd aldrig boxplotten eller histogrammet, men det är bara att säga, här är några andra alternativ, beroende på vad du försöker visa.

De är alla i stort sett lika lätta att göra som någon av de andra när vi använder Seaborn-funktionen i Python. Om du vill veta mer om , kolla in länkarna nedan.

Med vänliga hälsningar!


Skapa en datumtabell i LuckyTemplates

Skapa en datumtabell i LuckyTemplates

Ta reda på varför det är viktigt att ha en dedikerad datumtabell i LuckyTemplates och lär dig det snabbaste och mest effektiva sättet att göra det.

LuckyTemplates mobilrapporteringstips och tekniker

LuckyTemplates mobilrapporteringstips och tekniker

Denna korta handledning belyser LuckyTemplates mobilrapporteringsfunktion. Jag ska visa dig hur du kan utveckla rapporter effektivt för mobila enheter.

Professional Service Analytics-rapporter i LuckyTemplates

Professional Service Analytics-rapporter i LuckyTemplates

I denna LuckyTemplates Showcase går vi igenom rapporter som visar professionell serviceanalys från ett företag som har flera kontrakt och kundengagemang.

Microsoft Power Platform-uppdateringar | Microsoft Ignite 2021

Microsoft Power Platform-uppdateringar | Microsoft Ignite 2021

Gå igenom de viktigaste uppdateringarna för Power Apps och Power Automate och deras fördelar och konsekvenser för Microsoft Power Platform.

Vanliga SQL-funktioner: En översikt

Vanliga SQL-funktioner: En översikt

Upptäck några vanliga SQL-funktioner som vi kan använda som sträng, datum och några avancerade funktioner för att bearbeta eller manipulera data.

LuckyTemplates Skapa mall: Guide och tips

LuckyTemplates Skapa mall: Guide och tips

I den här handledningen kommer du att lära dig hur du skapar din perfekta LuckyTemplates-mall som är konfigurerad efter dina behov och preferenser.

Fältparametrar och små multiplar i LuckyTemplates

Fältparametrar och små multiplar i LuckyTemplates

I den här bloggen kommer vi att visa hur man lager fältparametrar med små multiplar för att skapa otroligt användbara insikter och bilder.

LuckyTemplates Rank och anpassad gruppering

LuckyTemplates Rank och anpassad gruppering

I den här bloggen kommer du att lära dig hur du använder LuckyTemplates ranknings- och anpassade grupperingsfunktioner för att segmentera en exempeldata och rangordna den enligt kriterier.

Visar kumulativ total endast upp till ett visst datum i LuckyTemplates

Visar kumulativ total endast upp till ett visst datum i LuckyTemplates

I den här handledningen kommer jag att täcka en specifik teknik kring hur man visar Kumulativ total endast upp till ett specifikt datum i dina bilder i LuckyTemplates.

Punktdiagram: Avancerade anpassade bilder för LuckyTemplates

Punktdiagram: Avancerade anpassade bilder för LuckyTemplates

Lär dig hur du skapar och anpassar punktdiagram i LuckyTemplates, som huvudsakligen används för att mäta prestanda mot mål eller tidigare år.