Oplev unik indsigt ved hjælp af LuckyTemplates TOPN-funktion
Denne blog indeholder LuckyTemplates TOPN DAX-funktionen, som giver dig mulighed for at få unik indsigt fra dine data, hvilket hjælper dig med at træffe bedre markedsføringsbeslutninger.
Denne blog vil demonstrere, hvordan man bruger et kumulativt distributionsplot , også kendt som Empirical Cumulative Distribution Function eller ECDF-plot, og viser fordelene ved at bruge denne plotvariation i forhold til andre plottyper. Du kan se den fulde video af denne tutorial nederst på denne blog .
De fleste foretrækker ECDF-plot frem for at visualisere dataene, da de plotter hvert datapunkt direkte, og denne funktion gør det nemt for brugeren at interagere med plottet. I dag vil du lære, hvordan du bruger en ECDF i Python og LuckyTemplates og forbedrer dine præsentationer og rapporter om datadistribution.
Indholdsfortegnelse
Slags Distribution Plots
Jeg starter med at filtrere mine data på en bestemt dag, lørdag, og vi kan nedenfor se alle disse Python-plot, der bruges til at beskrive distributioner. Vi har her vores ECDF-plot, et histogram, et KDE-plot og et Box-plot.
Alle disse plots vil beskrive, hvordan data er spredt på tværs eller fordelt. For eksempel, hvis vi går ned og ser på histogrammet, kan vi se, at de fleste af disse høje bins vil være der, hvor vores data er placeret.
Til omkring $3,50 har vi den højeste beholder til vores tipsdata i vores datasæt nedenfor.
Vi kan også bruge et KDE-plot, der giver os en anden metrik, når vi ser på distribution. Histogram beskæftiger sig med antal, der vil være i disse beholdere, mens KDE beskæftiger sig med tæthed.
Med et KDE-plot kan du se, hvor de fleste af vores data er, ved at se den største tæthed eller den højeste bule i plottet, hvis du vil. Så på billedet ovenfor kan vi sige, at det er fordelt et sted mellem $2 og $4.
Det samme gælder i et Box-plot, som viser, at fordelingen er $2 til $4, og det er her, de fleste af vores data vil være. Den bruger en median, den vandrette linje, der deler boksen, for at give os en idé om, hvor den største fordeling er.
Og så har vi ECDF-plottet, hvor du på venstre side af y-aksen kan se ordet Proportion , der repræsenterer vores percentiler. Baseret på plottet, til $3,50, ser vi på omkring 50% af vores data, og ved $5 og derunder er 80% af vores data distribueret.
Histogram plotkode
Nu vil jeg vise dig koden for hver af disse plots, begyndende med histogrammet. De har alle meget ens og , så du kan hurtigt trække dem op ved hjælp af én kode, som en skabelon.
Vi skal først importere og gem det som sb, efterfulgt af matplotlib.pyplot som plt. Vi bruger en baggrundsstil kaldet ggplot og den matplotlib- variabel til at sende i forskellige stilarter.
For eksempel kan vi på billedet nedenfor se, at vi i den 11. linje tilføjer en titel til histogram- og krydsstørrelser i de følgende linjer. Yticks og xticks repræsenterer x- og y-størrelserne tilsvarende .
I den 14. linje bruger vi en Seaborn-variabel til at bringe det pågældende plot ind, ligesom histplot i eksemplet ovenfor, som repræsenterer et histogramplot. Vi sender derefter data fra 4. linje ind i funktionen som et datasæt.
Alt, hvad du bringer ind i værdierne, repræsenterer dit datasæt og vil droppe dubletterne. Så bruger vi x til tipsene og en nuance, som sammen med seaborn giver dig mulighed for at adskille dine data efter kategori. Hvis vi går tilbage til vores visuelle, kan vi, at det har kategorier, herunder den, tid eller ryger.
KDE plot
For KDE-plottet er alt næsten identisk. Vi behøver kun at indtaste en ny parameter kaldet skygge for at få det skyggefulde look. Bortset fra det er farvetonen, dataene og resten de samme.
Med Box-plottet ligner det for det meste andre plots bortset fra nogle få mindre forskelle. Her bruger vi boxplot-funktionen , hvor x er dagen og y er spidserne. Vi bruger heller ikke nuance til dette plot.
Så det er den samme struktur som ECDF-plottet, og den eneste forskel er i Seaborn-variablen, hvor vi passerer i et ECDF-plot og bruger nuance som dag. Men vi kan også ændre den nuance til en anden kategori, vi har, som ryger.
Hvis vi sender denne kategori ind, ender vi med et ECDF-plot, der har to forskellige linjer. I disse fordelinger kan vi se, at rygerne har mere med hensyn til vores særlige linjebredde.
Ikke-rygere har hundrede procent af disse data under $6, mens rygere har det til $6. Så interessant nok, kan vores rygere efterlade et større drikkepenge på en bestemt dag.
Styling af ECDF-plot
Nu kan vi style vores ECDF-plot yderligere for at gøre dem mere præsentable. På billedet nedenfor er forskellige ECDF-plot. I det første plot gjorde jeg linjerne større og brugte en anden farvepalet.
I det første plot brugte jeg forskellige parametre inde i funktionen. Som du kan se nedenfor, passerede jeg i paletten som sommer og stregbredden som 5.
Jeg sammenlignede også lørdag og søndag, hvorfor der er to forskellige grønne streger. Her kan vi se, at $3-dip er på 45. percentil for søndag og 70. percentil for torsdag, hvilket fortæller os, at folk har en tendens til at give højere drikkepenge om søndagen.
Vi kan også skifte X- og Y-aksen, skifte proportion og spids inde i vores plot og ændre paletten, ligesom på billedet nedenfor.
Her kan vi se, at $2-spidsen er på 20. percentilen for søndag, som er den lilla linje i plottet. Så dataene er de samme med det tidligere ECDF-plot, og kun præsentationen er anderledes.
Vi har nu et andet plot med det samme datasæt og beholder de oprindelige aksepositioner som vist på billedet ovenfor. Forskellen denne gang er, at linjernes retning er omvendt.
ECDF-plotstil
Hvis vi ser på koden, er det eneste, vi gør, at indsætte parameteren komplementært lig = sand. Denne handling vil give os mulighed for at sige, at i $2-intervallet og derover er 80 % af vores data distribueret, i stedet for at sige, at under $2-intervallet er, hvor 20% af vores data distribueres. Igen, det er de samme data med et andet udseende eller en anden måde at præsentere dem på.
Og i vores fjerde og sidste ECDF-plot bruger vi Count i stedet for proportioner.
Denne tilgang er nyttig, når vi har mere end et par parceller. Ved at se på tællekolonnen i billedet nedenfor kan vi se, at der ikke er mange observationer om fredagen, hvilket fortæller os, at folk ikke efterlader en masse tips den dag.
ECDF Plots Code Essentials
Hvis vi ser på koden, finder du Seaborn , som er det vigtigste for at skabe netop dette plot. Vi har også matplotlib.pyplot til styling, som du kan gemme som en variabel kaldet plt .
Vi kan derefter bruge den variabel til at skabe forskellige stilarter til vores særlige plot, som at tilføje titler og skriftstørrelser. Hoveddelen af din kode vil være din ECDF-plotfunktion, som vi bringer ind med Seaborn.
Konklusion
Det var de måder, du kan bruge forskellige distributionsplot, inklusive Histogram-, KDE-, Box- og ECDF-plot. Du lærte også fire måder at præsentere et ECDF-plot ved hjælp af det samme datasæt. Du kan bruge enhver tilgang afhængigt af dine præferencer.
Husk altid at medbringe de nødvendige biblioteker til at skabe dit plot og bruge den rigtige funktion. Derefter er det kun et spørgsmål om at ændre visuelle og stilistiske aspekter af dit plot som aksepositionering og nuancer.
Alt det bedste,
Denne blog indeholder LuckyTemplates TOPN DAX-funktionen, som giver dig mulighed for at få unik indsigt fra dine data, hvilket hjælper dig med at træffe bedre markedsføringsbeslutninger.
Lær nogle fantastiske analytiske teknikker, som vi kan gøre til datamodellering i LuckyTemplates ved hjælp af DAX-understøttende tabeller.
Her dykker vi ned i LuckyTemplates Advanced DAX og implementerer rangeringslogik for at få en meget unik indsigt. Jeg viser også måleforgrening i dette eksempel.
Denne blog introducerer den nye funktion i LuckyTemplates, What-If-analyseparameteren. Du vil se, hvordan det gør alt hurtigt og nemt til din scenarieanalyse.
Lær, hvordan du afgør, om din omsætningsvækst er god ved at kontrollere, om dine avancer er udvidet ved hjælp af LuckyTemplates, der måler forgrening.
Lær og forstå, hvordan du kan oprette og bruge LuckyTemplates Parameters, som er en kraftfuld funktion i Query Editor.
Denne vejledning vil diskutere om oprettelse af et rundt søjlediagram ved hjælp af Charticulator. Du lærer, hvordan du designer dem til din LuckyTemplates-rapport.
Lær, hvordan du bruger PowerApps-funktioner og -formler til at forbedre funktionaliteten og ændre adfærd i vores Power Apps-lærredsapp.
I denne øvelse lærer du, hvordan du kæder funktioner sammen ved hjælp af dplyr-røroperatoren i programmeringssproget R.
RANKX fra LuckyTemplates giver dig mulighed for at returnere rangeringen af et specifikt tal i hver tabelrække, der udgør en del af en liste over tal.