Opprette et jitterplott ved å bruke Ggplot2 i RStudio

Pakken er den mest omfattende måten å bygge grafer og plott på. Firmaer, som New York Times og The Economist, bruker i stor grad ggplot2 for å lage visualiseringer. Med store selskaper som bruker dette verktøyet, er det viktig å ha en kunnskapsbase om hvordan du bruker ggplot2 for å lage visualiseringer som jitter-plot.

I denne opplæringen lærer du hvordan du lager et jitterplott ved å bruke ggplot2 i . Når du forstår grammatikken til grafikk i ggplot2, vil du kunne sette sammen en hvilken som helst graf eller plot.

Et jitterplot er en type som brukes til å vise fordelingen av et sett med numeriske datapunkter. "Jitter" i plottets navn refererer til den tilfeldige variasjonen som legges til posisjonen til hvert symbol langs x- og y-aksene.

Denne variasjonen bidrar til å forhindre at symboler overlapper og gjør det lettere å se fordelingen av datapunkter i tilfeller der det er høy tetthet av punkter i visse områder av plottet.

Hvis du har et tett befolket plot, kan et jitterplot gjøre visualiseringen lettere å forstå. Du kan også bruke den til å plotte fordelinger etter kategori, som er et alternativ til et boksplott eller en .

Innholdsfortegnelse

Opprette et jitterplott i R

For denne demonstrasjonen brukes tidyverse datasettet.

Opprette et jitterplott ved å bruke Ggplot2 i RStudio

Lag først et spredningsplott ved å bruke ggplot ( ) funksjonen. I dette tilfellet er x-aksen året mens y-aksen er mpg-datasettet.

Opprette et jitterplott ved å bruke Ggplot2 i RStudio

Når du kjører koden, kan du se at plottet viser punkter som danner en rett linje i forhold til y-aksen.

Opprette et jitterplott ved å bruke Ggplot2 i RStudio

Bruk funksjonen geom_jitter ( ) for å legge til et nytt lag til grafen. Når du kjører koden, vil du se at punktene i plottet forskjøv seg. Poengene vil fortsette å skifte hver gang du kjører koden.

Opprette et jitterplott ved å bruke Ggplot2 i RStudio

Bruk funksjonen set.seed ( ) for å hindre at punktene forskyves hele tiden . Inne i parentesen skriver du inn et tilfeldig tall. I dette tilfellet er det 1234. Etter at du har kjørt koden, vil du se at plottet forblir det samme selv om du gjentatte ganger klikker på Kjør.

Opprette et jitterplott ved å bruke Ggplot2 i RStudio

Opprette et jitterplott med kategoriske variabler

Du kan også bruke funksjonen geom_jitter ( ) for kategoriske variabler.

Ved å bruke det samme argumentet, la oss endre x-aksen til mpg og y-aksen til origo. Når du kjører den nye kodelinjen, kan du se at i stedet for å vise dataene i rette linjer, er de tilfeldig fordelt i plottet.

Opprette et jitterplott ved å bruke Ggplot2 i RStudio

Dette hjelper deg med å visualisere de individuelle observasjonene for hver kategori og hvordan de varierer. I dette tilfellet kan du se den typiske kjørelengden for en opprinnelse kontra en annen.

Du kan legge til farge til plottet ved å legge til et annet argument i funksjonen aes ( ) . Du kan også angi størrelsen på punktene til en bestemt dataverdi i datasettet.

Opprette et jitterplott ved å bruke Ggplot2 i RStudio

I dette eksemplet gjorde jitter-plottet det lettere å identifisere opprinnelsen med flest biler og de som har bedre kjørelengde.

På grunn av størrelsen som er angitt i koden, ser plottet overmettet ut. Du kan endre størrelsen eller fargen på datapunktene avhengig av dine preferanser eller forretningskrav.

Konklusjon

Et jitterplott er en av måtene å bringe en ny form for innsikt i visualiseringene dine. Det hjelper brukere til å bedre forstå hva som skjer med data. Dette plottet er et flott alternativ til det typiske histogrammet eller boksplottene for plotting av distribusjoner.

Evnen til å effektivt forstå den underliggende strukturen til et datasett gjør jitterplott til et verdifullt verktøy innen ulike felt som statistikk, dataanalyse og maskinlæring. Totalt sett gir jitterplott en klar og lettfattelig representasjon av fordelingen av numeriske datapunkter, noe som gjør det til et kraftig verktøy for datavisualisering og -analyse.

Beste ønsker,

George Mount


Pipe In R: Koblingsfunksjoner med Dplyr

Pipe In R: Koblingsfunksjoner med Dplyr

I denne opplæringen lærer du hvordan du kobler funksjoner sammen ved å bruke dplyr-røroperatøren i programmeringsspråket R.

RANKX Deep Dive: A LuckyTemplates DAX-funksjon

RANKX Deep Dive: A LuckyTemplates DAX-funksjon

RANKX fra LuckyTemplates lar deg returnere rangeringen til et spesifikt tall i hver tabellrad som utgjør en del av en liste med tall.

Trekker ut LuckyTemplates-temaer og bilder fra PBIX

Trekker ut LuckyTemplates-temaer og bilder fra PBIX

Lær hvordan du demonterer en PBIX-fil for å trekke ut LuckyTemplates-temaer og bilder fra bakgrunnen og bruke den til å lage rapporten din!

Excel Formulas Cheat Sheet: Mellomveiledning

Excel Formulas Cheat Sheet: Mellomveiledning

Excel Formulas Cheat Sheet: Mellomveiledning

LuckyTemplates-kalendertabell: Hva er det og hvordan du bruker det

LuckyTemplates-kalendertabell: Hva er det og hvordan du bruker det

LuckyTemplates-kalendertabell: Hva er det og hvordan du bruker det

Python i LuckyTemplates: Hvordan installere og sette opp

Python i LuckyTemplates: Hvordan installere og sette opp

Lær hvordan du installerer programmeringsspråket Python i LuckyTemplates og hvordan du bruker verktøyene til å skrive koder og vise visuelle elementer.

Beregning av dynamiske fortjenestemarginer – enkel analyse av LuckyTemplates med DAX

Beregning av dynamiske fortjenestemarginer – enkel analyse av LuckyTemplates med DAX

Lær hvordan du beregner dynamiske fortjenestemarginer ved siden av LuckyTemplates og hvordan du kan få mer innsikt ved å grave dypere inn i resultatene.

Sortering av datotabellkolonner i LuckyTemplates

Sortering av datotabellkolonner i LuckyTemplates

Lær hvordan du sorterer feltene fra kolonner med utvidet datotabell på riktig måte. Dette er en god strategi å gjøre for vanskelige felt.

Finn dine beste produkter for hver region i LuckyTemplates ved å bruke DAX

Finn dine beste produkter for hver region i LuckyTemplates ved å bruke DAX

I denne artikkelen går jeg gjennom hvordan du kan finne de beste produktene dine per region ved å bruke DAX-beregninger i LuckyTemplates, inkludert TOPN- og CALCUATE-funksjonene.

Søppeldimensjon: Hva er det og hvorfor det er alt annet enn søppel

Søppeldimensjon: Hva er det og hvorfor det er alt annet enn søppel

Lær hvordan du bruker en søppeldimensjon for flagg med lav kardinalitet som du ønsker å inkludere i datamodellen din på en effektiv måte.