Pipe In R: Anslutningsfunktioner med Dplyr
I den här handledningen kommer du att lära dig hur du kopplar ihop funktioner med hjälp av dplyr-röroperatorn i programmeringsspråket R.
Paketet är det mest omfattande sättet att bygga grafer och plotter. Företag, som New York Times och The Economist, använder kraftigt ggplot2 för att skapa sina visualiseringar. Med stora företag som använder det här verktyget är det viktigt att ha en kunskapsbas om hur man använder ggplot2 för att skapa visualiseringar som jitterplotten.
I den här handledningen kommer du att lära dig hur du skapar en jitterplot med ggplot2 i . När du väl förstår grafikens grammatik i ggplot2 kommer du att kunna sätta ihop vilken graf eller plot som helst.
En jitterplot är en typ som används för att visa fördelningen av en uppsättning numeriska datapunkter. "Jittert" i plottets namn hänvisar till den slumpmässiga variationen som läggs till positionen för varje symbol längs x- och y-axlarna.
Denna variation hjälper till att förhindra att symboler överlappar varandra och gör det lättare att se fördelningen av datapunkter i de fall det finns hög täthet av punkter i vissa områden av plottet.
Om du har en tätbefolkad tomt kan en jitterplot göra din visualisering lättare att förstå. Du kan också använda den för att plotta distributioner efter kategori, vilket är ett alternativ till en boxplot eller en .
Innehållsförteckning
Skapa en jitterplot i R
För denna demonstration används tidyverse dataset.
Skapa först ett spridningsdiagram med funktionen ggplot ( ) . I det här fallet är x-axeln året medan y-axeln är mpg-datauppsättningen.
När du kör koden kan du se att diagrammet visar punkter som bildar en rät linje med avseende på y-axeln.
Använd funktionen geom_jitter ( ) för att lägga till ytterligare ett lager i grafen. När du kör koden ser du att punkterna i plotten har skiftat. Poängen kommer att fortsätta att flyttas varje gång du kör koden.
Använd funktionen set.seed ( ) för att förhindra att punkterna ständigt förskjuts. Skriv in valfritt slumptal inom parentesen. I det här fallet är det 1234. När du har kört koden ser du att plottet förblir detsamma även om du upprepade gånger klickar på Kör.
Skapa en jitterplot med kategoriska variabler
Du kan också använda funktionen geom_jitter ( ) för kategoriska variabler.
Med samma argument, låt oss ändra x-axeln till mpg och y-axeln till ursprung. När du kör den nya kodraden kan du se att istället för att visa data i raka linjer så är de slumpmässigt fördelade i plotten.
Detta hjälper dig att visualisera de individuella observationerna för varje kategori och hur de varierar. I det här fallet kan du se den typiska körsträckan från ett ursprung kontra ett annat.
Du kan lägga till färg till plottet genom att lägga till ytterligare ett argument i funktionen aes ( ) . Du kan också ställa in storleken på punkterna till ett specifikt datavärde i din datauppsättning.
I det här exemplet gjorde jitterplotten det lättare att identifiera ursprunget med flest bilar och de som har bättre körsträcka.
På grund av storleken som anges i koden ser handlingen övermättad ut. Du kan ändra storleken eller färgen på datapunkterna beroende på dina önskemål eller affärskrav.
Slutsats
En jitterplot är ett av sätten att få en ny form av insikt i dina visualiseringar. Det hjälper användare att bättre förstå vad som händer med data. Denna plot är ett utmärkt alternativ till det typiska histogrammet eller boxplotten för att plotta distributioner.
Förmågan att effektivt förstå den underliggande strukturen för en datamängd gör jitterplot till ett värdefullt verktyg inom olika områden som statistik, dataanalys och maskininlärning. Sammantaget ger jitterplots en tydlig och lättförståelig representation av fördelningen av numeriska datapunkter, vilket gör det till ett kraftfullt verktyg för datavisualisering och analys.
Med vänliga hälsningar,
George Mount
I den här handledningen kommer du att lära dig hur du kopplar ihop funktioner med hjälp av dplyr-röroperatorn i programmeringsspråket R.
RANKX från LuckyTemplates låter dig returnera rankningen av ett specifikt nummer i varje tabellrad som utgör en del av en lista med nummer.
Lär dig hur du tar isär en PBIX-fil för att extrahera LuckyTemplates-teman och bilder från bakgrunden och använda den för att skapa din rapport!
Excel Formler Fuskblad: Mellanvägledning
LuckyTemplates Kalendertabell: Vad är det och hur man använder det
Lär dig hur du installerar programmeringsspråket Python i LuckyTemplates och hur du använder dess verktyg för att skriva koder och visa bilder.
Lär dig hur du beräknar dynamiska vinstmarginaler vid sidan av LuckyTemplates och hur du kan få fler insikter genom att gräva djupare i resultaten.
Lär dig hur du sorterar fälten från en utökad datumtabells kolumner korrekt. Detta är en bra strategi att göra för svåra fält.
I den här artikeln går jag igenom hur du kan hitta dina toppprodukter per region med hjälp av DAX-beräkningar i LuckyTemplates, inklusive TOPN- och CALCULATE-funktionerna.
Lär dig hur du använder en skräpdimension för flaggor med låg kardinalitet som du vill infoga i din datamodell på ett effektivt sätt.