Oprettelse af et jitterplot ved hjælp af Ggplot2 i RStudio

Pakken er den mest omfattende måde at bygge grafer og plots på. Firmaer, som New York Times og The Economist, bruger i høj grad ggplot2 til at skabe deres visualiseringer. Med store virksomheder, der bruger dette værktøj, er det vigtigt at have en vidensbase om, hvordan man bruger ggplot2 til at skabe visualiseringer såsom jitter-plottet.

I denne tutorial lærer du, hvordan du opretter et jitter-plot ved hjælp af ggplot2 i . Når du forstår grammatikken i grafik i ggplot2, vil du være i stand til at sammensætte enhver graf eller plot.

Et jitterplot er en type, der bruges til at vise fordelingen af ​​et sæt numeriske datapunkter. "Jitter" i plottets navn refererer til den tilfældige variation, der føjes til placeringen af ​​hvert symbol langs x- og y-akserne.

Denne variation hjælper med at forhindre symboler i at overlappe og gør det lettere at se fordelingen af ​​datapunkter i tilfælde, hvor der er høj tæthed af punkter i visse områder af plottet.

Hvis du har et tæt befolket plot, kan et jitterplot gøre din visualisering lettere at forstå. Du kan også bruge den til at plotte fordelinger efter kategori, som er et alternativ til et boxplot eller en .

Indholdsfortegnelse

Oprettelse af et jitterplot i R

Til denne demonstration bruges tidyverse- datasættet.

Oprettelse af et jitterplot ved hjælp af Ggplot2 i RStudio

Først skal du oprette et punktplot ved hjælp af funktionen ggplot ( ) . I dette tilfælde er x-aksen året, mens y-aksen er mpg-datasættet.

Oprettelse af et jitterplot ved hjælp af Ggplot2 i RStudio

Når du kører koden, kan du se, at plottet viser punkter, der danner en ret linje i forhold til y-aksen.

Oprettelse af et jitterplot ved hjælp af Ggplot2 i RStudio

Brug funktionen geom_jitter ( ) til at tilføje endnu et lag til grafen. Når du kører koden, vil du se, at punkterne i plottet flyttede sig. Pointene vil fortsætte med at skifte hver gang du kører koden.

Oprettelse af et jitterplot ved hjælp af Ggplot2 i RStudio

For at forhindre punkterne i konstant at flytte sig, skal du bruge funktionen set.seed ( ) . Indtast et tilfældigt tal inden for parentesen. I dette tilfælde er det 1234. Når du har kørt koden, vil du se, at plottet forbliver det samme, selvom du gentagne gange klikker på Kør.

Oprettelse af et jitterplot ved hjælp af Ggplot2 i RStudio

Oprettelse af et jitterplot med kategoriske variabler

Du kan også bruge funktionen geom_jitter ( ) til kategoriske variable.

Brug det samme argument, lad os ændre x-aksen til mpg og y-aksen til oprindelse. Når du kører den nye kodelinje, kan du se, at i stedet for at vise dataene i lige linjer, er de tilfældigt fordelt i plottet.

Oprettelse af et jitterplot ved hjælp af Ggplot2 i RStudio

Dette hjælper dig med at visualisere de individuelle observationer for hver kategori, og hvordan de varierer. I dette tilfælde kan du se den typiske kilometertal for en oprindelse versus en anden.

Du kan tilføje farve til plottet ved at tilføje endnu et argument i funktionen aes ( ) . Du kan også indstille størrelsen af ​​punkterne til en bestemt dataværdi i dit datasæt.

Oprettelse af et jitterplot ved hjælp af Ggplot2 i RStudio

I dette eksempel gjorde jitter-plottet det lettere at identificere oprindelsen med flest biler og dem, der har bedre kilometertal.

På grund af størrelsen angivet i koden, ser plottet overmættet ud. Du kan ændre størrelsen eller farven på datapunkterne afhængigt af dine præferencer eller forretningskrav.

Konklusion

Et jitterplot er en af ​​måderne til at bringe en ny form for indsigt i dine visualiseringer. Det hjælper brugerne til bedre at forstå, hvad der sker med data. Dette plot er et godt alternativ til det typiske histogram eller boksplot til at plotte distributioner.

Evnen til effektivt at forstå den underliggende struktur af et datasæt gør jitterplot til et værdifuldt værktøj inden for forskellige områder såsom statistik, dataanalyse og maskinlæring. Samlet set giver jitterplot en klar og letforståelig repræsentation af fordelingen af ​​numeriske datapunkter, hvilket gør det til et kraftfuldt værktøj til datavisualisering og -analyse.

Alt det bedste,

George Mount


Pipe In R: Tilslutningsfunktioner med Dplyr

Pipe In R: Tilslutningsfunktioner med Dplyr

I denne øvelse lærer du, hvordan du kæder funktioner sammen ved hjælp af dplyr-røroperatoren i programmeringssproget R.

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX fra LuckyTemplates giver dig mulighed for at returnere rangeringen af ​​et specifikt tal i hver tabelrække, der udgør en del af en liste over tal.

Udpakning af LuckyTemplates-temaer og -billeder fra PBIX

Udpakning af LuckyTemplates-temaer og -billeder fra PBIX

Lær, hvordan du adskiller en PBIX-fil for at udtrække LuckyTemplates-temaer og -billeder fra baggrunden og bruge den til at oprette din rapport!

Excel Formler Snydeark: Mellemvejledning

Excel Formler Snydeark: Mellemvejledning

Excel Formler Snydeark: Mellemvejledning

LuckyTemplates kalendertabel: Hvad er det, og hvordan man bruger det

LuckyTemplates kalendertabel: Hvad er det, og hvordan man bruger det

LuckyTemplates kalendertabel: Hvad er det, og hvordan man bruger det

Python i LuckyTemplates: Sådan installeres og konfigureres

Python i LuckyTemplates: Sådan installeres og konfigureres

Lær, hvordan du installerer programmeringssproget Python i LuckyTemplates, og hvordan du bruger dets værktøjer til at skrive koder og vise billeder.

Beregning af dynamiske fortjenestemargener – nem analyse af LuckyTemplates med DAX

Beregning af dynamiske fortjenestemargener – nem analyse af LuckyTemplates med DAX

Lær, hvordan du beregner dynamiske fortjenstmargener ved siden af ​​LuckyTemplates, og hvordan du kan få mere indsigt ved at grave dybere ned i resultaterne.

Sortering af datotabelkolonner i LuckyTemplates

Sortering af datotabelkolonner i LuckyTemplates

Lær, hvordan du sorterer felterne fra kolonner med udvidet datotabel korrekt. Dette er en god strategi at gøre for vanskelige felter.

Find dine topprodukter for hver region i LuckyTemplates ved hjælp af DAX

Find dine topprodukter for hver region i LuckyTemplates ved hjælp af DAX

I denne artikel gennemgår jeg, hvordan du kan finde dine topprodukter pr. region ved hjælp af DAX-beregninger i LuckyTemplates, herunder funktionerne TOPN og CALCUATE.

Junk Dimension: Hvad er det, og hvorfor det er alt andet end junk

Junk Dimension: Hvad er det, og hvorfor det er alt andet end junk

Lær, hvordan du bruger en uønsket dimension til flag med lav kardinalitet, som du ønsker at inkorporere i din datamodel på en effektiv måde.