Seaborn-funktion i Python för att visualisera en variabels distribution

När du arbetar med en datamängd som består av flera variabler är det bäst att kunna förstå hur dessa skiljer sig åt och interagerar med varandra. I den här handledningen ska jag demonstrera hur du kan använda Seaborn-funktionen i Python för att visualisera alternativ till en variabels fördelning. Du kan se hela videon av denna handledning längst ner på den här bloggen.

Innehållsförteckning

Använder Seaborn-funktionen i Python

Jag kommer att demonstrera detta på MPG-datauppsättningen, som är tillgänglig inom Seaborn. Så låt oss gå vidare och importera alla paket vi behöver samt all data vi behöver. Vi ska titta på fördelningen av MPG-variabeln här och hur de varierar. De två vanliga sätten att göra det är histogram och boxplot .

Seaborn-funktion i Python för att visualisera en variabels distribution

Så jag kommer att använda displotfunktionen (DIS för distribution). Sedan måste jag specificera vilken datamängd det är och vilken variabel vi ska lägga på X-axeln. Och med det har vi fördelningen.

Det här är ganska bra. Detta är mycket lätt att se hela fördelningen och formen. Ett par brister med denna visualisering av distributionen dock. En är att antalet papperskorgar som vi använder utan tvekan är godtyckligt. Den andra saken är att vi inte nödvändigtvis kan veta omedelbart vad medelvärdet av variabeln är.

Seaborn-funktion i Python för att visualisera en variabels distribution

Det fina med Seaborn är att när jag väl har ställt in vilken variabel jag vill ha, var och vilken datauppsättning jag använder, är det verkligen plug-and-chug med att göra ny visualisering. Nu ska vi gå till boxplotten. Boxplot använder inte papperskorgar.

Tanken här är att vi kan se kvartilvärdet riktigt tydligt, medianen specifikt, och vi ser de andra kvartilvärdena. Vi ser att det finns en extremitet, och det här är en mycket exakt handling. Problemet är att det är exakt med saker som i allmänhet många företagsanvändare förmodligen inte bryr sig om.

Seaborn-funktion i Python för att visualisera en variabels distribution

Så den här handlingen är lite svår för icke-statistiska människor att verkligen få mycket värde. Och återigen, det aggregerar data, så vi förlorar mycket detaljer. Det är svårt att veta exakt hur det här ser ut. Vi kan se att det finns en extremist. Vi kan se att de flesta av värdena finns här. Histogrammet ger oss ett mer intuitivt sätt att se på det.

Det är båda bra tomter. De har båda sina syften. Låt oss titta på några alternativ med Seaborn för att visualisera. Vi kommer att hålla fast vid MPG för fördelningen av den variabeln.

I likhet med boxplot kan du se här att medianen är tydligt markerad. Vi ser kvartilintervallet också och vi kan få en bättre koll på vad den övergripande fördelningen är. Det här är lite som ett histogram också. Det kallas en kärndensitetsuppskattningsplot eller KDE-plot. Det är en smidig version av histogrammet. Vi använder ingen godtycklig binning. Allt jämnas ut till ett kontinuerligt intervall här.

Seaborn-funktion i Python för att visualisera en variabels distribution

Detta är en sorts hybrid av dessa två tillvägagångssätt och tar verkligen hand om några av bristerna. Men beroende på din publik kan de verkligen kämpa med att titta på det här. De kanske inte är vana vid det, men det har vissa fördelar med de traditionella metoderna.

I det här tillvägagångssättet samlar vi inte ihop data längre. Varje enskild punkt plottas. Detta tar delar av scatter plot, eller hur? Om du tänker på ett spridningsdiagram plottar vi varje enskild punkt på X- och Y-koordinaterna.

Seaborn-funktion i Python för att visualisera en variabels distribution

Till sist har vi stripplotten . Vad vi gör här är att ta den fördelningen och vi sprider slumpmässigt. Detta är en slumpmässig process. Vi försöker inte skapa den distributionsformen längre. Problemet med detta är att vi har alla dessa klumpar som springer in i varandra, så det kanske inte är bra beroende på vad du försöker göra. Kanske vill du färglägga dessa gruppvis eller liknande, så det finns ett alternativ för det.

Seaborn-funktion i Python för att visualisera en variabels distribution

Vi kan ändra jitter till 0,25 och se att när vi ökar jitter sprids dessa punkter ut lite mer.

Seaborn-funktion i Python för att visualisera en variabels distribution

Men varje gång jag kör dem kommer de att se lite annorlunda ut. Så om du vill bli av med det och göra det samma varje gång, kan du importera numpy som np . Vad detta gör är vad som kallas att sätta ett slumpmässigt frö.

Varje gång jag kör något som har med slumptal att göra, kommer det att använda samma slumptal. Saker och ting förändras inte slumpmässigt när du kör det igen. Detta kan vara bra för alla typer av simuleringar som du gör, vilket händer mycket inom datavetenskap och analys med denna visualisering också. Så nu, varje gång jag kör den här handlingen, kommer vi att få samma utseende på det.

Seaborn-funktion i Python för att visualisera en variabels distribution

Jag kan också lägga till Y-ursprung här, och nu ser vi att vi skapar en bi-variant distribution. Vi tar milfördelningen och segmenterar den efter ursprung.

Seaborn-funktion i Python för att visualisera en variabels distribution




Slutsats

Dessa är alternativ till att visualisera fördelningar av en variabel. De har alla sina för- och nackdelar. Detta är inte att säga, använd aldrig boxplotten eller histogrammet, men det är bara att säga, här är några andra alternativ, beroende på vad du försöker visa.

De är alla i stort sett lika lätta att göra som någon av de andra när vi använder Seaborn-funktionen i Python. Om du vill veta mer om , kolla in länkarna nedan.

Med vänliga hälsningar!


LuckyTemplates What-If-parameterfunktion

LuckyTemplates What-If-parameterfunktion

Den här bloggen introducerar den nya funktionen i LuckyTemplates, analysparametern What-If. Du kommer att se hur det gör allt snabbt och enkelt för din scenarioanalys.

Använd LuckyTemplates Mät förgreningar för att kontrollera om dina marginaler ökar när intäkterna växer

Använd LuckyTemplates Mät förgreningar för att kontrollera om dina marginaler ökar när intäkterna växer

Lär dig hur du avgör om din intäktstillväxt är bra genom att kontrollera om dina marginaler ökade med hjälp av LuckyTemplates mäter förgrening.

LuckyTemplates parametrar via frågeredigerare

LuckyTemplates parametrar via frågeredigerare

Lär dig och förstå hur du kan skapa och använda LuckyTemplates-parametrar som är en kraftfull funktion i frågeredigeraren.

Runda stapeldiagram – En visualisering för din instrumentpanel

Runda stapeldiagram – En visualisering för din instrumentpanel

Denna handledning kommer att diskutera hur man skapar ett runt stapeldiagram med Charticulator. Du kommer att lära dig hur du designar dem för din LuckyTemplates-rapport.

PowerApps funktioner och formler | En introduktion

PowerApps funktioner och formler | En introduktion

Lär dig hur du använder PowerApps funktioner och formler för att förbättra funktionaliteten och ändra ett beteende i vår Power Apps canvas-app.

Pipe In R: Anslutningsfunktioner med Dplyr

Pipe In R: Anslutningsfunktioner med Dplyr

I den här handledningen kommer du att lära dig hur du kopplar ihop funktioner med hjälp av dplyr-röroperatorn i programmeringsspråket R.

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX från LuckyTemplates låter dig returnera rankningen av ett specifikt nummer i varje tabellrad som utgör en del av en lista med nummer.

Extrahera LuckyTemplates-teman och bilder från PBIX

Extrahera LuckyTemplates-teman och bilder från PBIX

Lär dig hur du tar isär en PBIX-fil för att extrahera LuckyTemplates-teman och bilder från bakgrunden och använda den för att skapa din rapport!

Excel Formler Fuskblad: Mellanvägledning

Excel Formler Fuskblad: Mellanvägledning

Excel Formler Fuskblad: Mellanvägledning

LuckyTemplates Kalendertabell: Vad är det och hur man använder det

LuckyTemplates Kalendertabell: Vad är det och hur man använder det

LuckyTemplates Kalendertabell: Vad är det och hur man använder det