Upptäck unika insikter med LuckyTemplates TOPN-funktion
Den här bloggen innehåller LuckyTemplates TOPN DAX-funktion, som gör att du kan få unika insikter från dina data, vilket hjälper dig att fatta bättre marknadsföringsbeslut.
Den här bloggen kommer att visa hur man använder en kumulativ distributionsplot , även känd som empirisk kumulativ distributionsfunktion eller ECDF-plot, och visa upp fördelarna med att använda denna plotvariation jämfört med andra plottyper. Du kan se hela videon av denna handledning längst ner på den här bloggen .
De flesta föredrar ECDF-plott framför för att visualisera data eftersom de plottar varje datapunkt direkt, och den här funktionen gör det enkelt för användaren att interagera med plottet. Idag kommer du att lära dig hur du använder en ECDF i Python och LuckyTemplates och förbättrar dina presentationer och rapporter om datadistribution.
Innehållsförteckning
Typer av distributionsplaner
Jag börjar med att filtrera mina data på en viss dag, lördag, och vi kan nedan se alla dessa Python-plots som används för att beskriva distributioner. Vi har här vår ECDF-plot, ett histogram, en KDE-plot och en Box-plot.
Alla dessa diagram kommer att beskriva hur data sprids över eller distribueras. Till exempel, om vi går ner och tittar på histogrammet kan vi se att de flesta av dessa höga papperskorgar kommer att vara där vår data finns.
På cirka 3,50 USD har vi den högsta behållaren för våra tipsdata i vår datamängd nedan.
Vi kan också använda en KDE-plot som ger oss ett annat mått när vi tittar på distribution. Histogram behandlar antalet som kommer att finnas i dessa papperskorgar, medan KDE behandlar densitet.
Med en KDE-plot kan du se var de flesta av våra data finns genom att upptäcka den största densiteten eller den högsta utbuktningen i plottet om du vill. Så i bilden ovan kan vi säga att den är distribuerad någonstans mellan $2 och $4.
Detsamma gäller i en Box-plot, som visar att fördelningen är $2 till $4, och det är här de flesta av våra data kommer att finnas. Den använder en median, den horisontella linjen som delar rutan, för att ge oss en uppfattning om var den största fördelningen är.
Och sedan har vi ECDF-diagrammet där du på vänster sida av y-axeln kan se ordet Proportion , som representerar våra percentiler. Baserat på handlingen, på 3,50 USD, tittar vi på cirka 50 % av vår data, och på 5 USD och under är 80 % av vår data distribuerad.
Histogram Plot Code
Nu kommer jag att visa dig koden för var och en av dessa plotter, med början med histogrammet. De har alla väldigt lika och , så du kan snabbt dra upp dem med en kod, som en mall.
Vi måste först importera och spara den som sb, följt av matplotlib.pyplot som plt. Vi kommer att använda en bakgrundsstil som heter ggplot och den matplotlib -variabeln för att skicka i olika stilar.
Till exempel, i bilden nedan, kan vi se att på den 11:e raden lägger vi till en titel för histogram och tickstorlekar på följande rader. Yticks och xticks representerar x- och y-storlekarna i enlighet därmed .
På den 14:e raden använder vi en Seaborn-variabel för att få in just den plotten, som histploten i exemplet ovan, som representerar en histogramplot. Vi skickar sedan data från den 4:e raden till funktionen som en datamängd.
Allt du tar med i värdena representerar din datauppsättning och kommer att ta bort dubbletterna. Sedan använder vi x för tipsen och en nyans, som tillsammans med seaborn gör att du kan separera dina data efter kategori . Om vi går tillbaka till vårt visuella, kan vi att det har kategorier, inklusive tid, eller rökare.
KDE-plot
För KDE-plotten är allt nästan identiskt. Vi behöver bara skicka in en ny parameter som heter shade för att få det skuggade utseendet. Annat än det är nyansen, data och resten desamma.
Med Box-plotten är det mestadels likt andra tomter förutom några mindre skillnader. Här använder vi boxplot-funktionen där x är dagen och y är tipsen. Vi använder inte heller nyans för den här handlingen.
Så det är samma struktur som ECDF-diagrammet och den enda skillnaden är i Seaborn-variabeln, där vi passerar i en ECDF-plot och använder nyans som dag. Men vi kan också ändra den nyansen till en annan kategori vi har, som rökare.
Om vi skickar in den här kategorin kommer vi att få en ECDF-plot som har två olika linjer. I dessa fördelningar kan vi se att rökarna har mer angående vår specifika linjebredd.
Icke-rökare har hundra procent av denna data under 6 USD, medan rökare har den på 6 USD. Så intressant nog kan våra rökare lämna ett större dricks en viss dag.
Styling ECDF-plotter
Nu kan vi styla våra ECDF-planer ytterligare för att göra dem mer presentabla. På bilden nedan är olika ECDF-plottar. I den första plotten gjorde jag linjerna större och använde en annan färgpalett.
I den första plotten använde jag olika parametrar inuti funktionen. Som ni kan se nedan så passerade jag i paletten som sommar och linjebredden som 5.
Jag jämförde även lördag och söndag, därför finns det två olika gröna linjer. Här kan vi se att $3-drickset ligger på den 45:e percentilen för söndag och den 70:e percentilen för torsdag, vilket säger oss att folk tenderar att lämna högre dricks på söndagar.
Vi kan också byta X- och Y-axel, byta proportion och spets inuti vår plot och ändra paletten, precis som i bilden nedan.
Här kan vi se att $2-tipset är på den 20:e percentilen för söndag, vilket är den lila linjen i plotten. Så data är desamma med föregående ECDF-plot och bara presentationen är annorlunda.
Vi har nu en annan plot med samma datauppsättning och behåller de ursprungliga axelpositionerna som visas i bilden ovan. Skillnaden den här gången är att linjernas riktning är inverterad.
ECDF Plots Style
Om vi tittar på koden, är allt vi gör att skicka in parametern komplementär lika = sant. Den här åtgärden gör det möjligt för oss att säga att i intervallet $2 och högre är det där 80 % av vår data distribueras, istället för att under $2-intervallet är där 20% av vår data distribueras. Återigen, det är samma data med ett annat utseende eller sätt att presentera det på.
Och i vår fjärde och sista ECDF-plot använder vi Count istället för proportioner.
Detta tillvägagångssätt är användbart när vi har mer än ett fåtal tomter. Genom att titta på räknekolumnen i bilden nedan kan vi se att det inte är många observationer på fredagen, vilket säger oss att folk inte lämnar en massa tips den dagen.
ECDF Plots Code Essentials
Om vi tittar på koden så hittar du Seaborn , som är det viktigaste för att skapa just denna handling. Vi har även matplotlib.pyplot för styling, som du kan spara som en variabel som heter plt .
Vi kan sedan använda den variabeln för att skapa olika stilar för vår specifika plot, som att lägga till titlar och teckenstorlekar. Huvuddelen av din kod kommer att vara din ECDF-plottfunktion som vi tar in med Seaborn.
Slutsats
Det var sätten du kan använda olika distributionsdiagram, inklusive Histogram-, KDE-, Box- och ECDF-diagram. Du lärde dig också fyra sätt att presentera ett ECDF-diagram med samma datauppsättning. Du kan använda vilken metod som helst beroende på dina önskemål.
Kom alltid ihåg att ta in nödvändiga bibliotek för att skapa din tomt och för att använda rätt funktion. Efter det är det bara en fråga om att ändra visuella och stilistiska aspekter av din handling som axelpositionering och nyanser.
Med vänliga hälsningar,
Den här bloggen innehåller LuckyTemplates TOPN DAX-funktion, som gör att du kan få unika insikter från dina data, vilket hjälper dig att fatta bättre marknadsföringsbeslut.
Lär dig några fantastiska analytiska tekniker som vi kan göra för datamodellering i LuckyTemplates med hjälp av DAX-stödtabeller.
Här dyker vi in i LuckyTemplates Advanced DAX och implementerar rankningslogik för att få en mycket unik insikt. Jag visar också upp måttförgrening i det här exemplet.
Den här bloggen introducerar den nya funktionen i LuckyTemplates, analysparametern What-If. Du kommer att se hur det gör allt snabbt och enkelt för din scenarioanalys.
Lär dig hur du avgör om din intäktstillväxt är bra genom att kontrollera om dina marginaler ökade med hjälp av LuckyTemplates mäter förgrening.
Lär dig och förstå hur du kan skapa och använda LuckyTemplates-parametrar som är en kraftfull funktion i frågeredigeraren.
Denna handledning kommer att diskutera hur man skapar ett runt stapeldiagram med Charticulator. Du kommer att lära dig hur du designar dem för din LuckyTemplates-rapport.
Lär dig hur du använder PowerApps funktioner och formler för att förbättra funktionaliteten och ändra ett beteende i vår Power Apps canvas-app.
I den här handledningen kommer du att lära dig hur du kopplar ihop funktioner med hjälp av dplyr-röroperatorn i programmeringsspråket R.
RANKX från LuckyTemplates låter dig returnera rankningen av ett specifikt nummer i varje tabellrad som utgör en del av en lista med nummer.