Opret bivariate visualiseringer i R ved hjælp af Ggplot2

Oprettelse af visualiseringer i R ved hjælp af ggplot2 kan være en effektiv måde at udforske og forstå dine data på. En almindelig type visualisering er det bivariate plot, som giver dig mulighed for at undersøge sammenhængen mellem to variable.

I denne tutorial lærer du, hvordan du producerer bivariate visualiseringer i R ved hjælp af ggplot2. Denne blog vil specifikt fokusere på, at det ville være svært at udføre i LuckyTemplates, men nemt at gøre i R.

Indholdsfortegnelse

Oversigt

Tre hovedemner vil blive diskuteret i denne øvelse. Du lærer, hvordan du visualiserer fordelingen af ​​en variabel efter gruppe, og hvordan du visualiserer korrelationer og parvise sammenhænge.

Et parvist forhold refererer til forholdet mellem hvert par af variabler i et givet datasæt.

Til denne tutorial skal du downloade ggplot2 -pakken. Når du er færdig, åbner du et tomt script og bringer to biblioteker ind: tidyverse og GGally .

Opret bivariate visualiseringer i R ved hjælp af Ggplot2

GGally er en udvidelse til ggplot2. Det er bygget til at reducere kompleksiteten ved at kombinere geometriske objekter med transformerede data.

De forskellige bivariate visualiseringer i R

En bivariat visualisering viser sammenhængen mellem to variable.

Lad os som eksempel skabe en visualisering, der viser forholdet mellem byen og motorvejen. Du skal bruge funktionen ggplot ( ) og derefter tildele de relevante data.

Funktionen geom_point ( ) bruges derefter til at generere .

Opret bivariate visualiseringer i R ved hjælp af Ggplot2

Visualiseringer i R viser korrelation

Funktionen ggcorr () bruges til at visualisere korrelationen mellem variabler. Dette vil generere et varmekort med de laveste til højeste korrelationsværdier vist. Du kan yderligere forbedre visualiseringen ved at tilføje et argument, der viser etiketterne.

Opret bivariate visualiseringer i R ved hjælp af Ggplot2

Visualiseringer i R, der viser et parvist forhold

Til det parvise plot skal du bruge funktionen ggpairs ( ) .

Da datarammen i dette eksempel indeholder et stort datasæt, skal det først filtreres til kun at vise numeriske værdier, ellers vil resultaterne vise en fejl.

For at filtrere data skal du bruge røroperatoren og funktionen select_if ( ) .

Opret bivariate visualiseringer i R ved hjælp af Ggplot2

På fanebladet Plot kan du se den parvise visualisering genereret af koden. Du kan også se grafen og korrelationsværdien mellem hver variabel.

En anden ting, du kan gøre med parvise plots, er at tilføje ekstra elementer for at øge visualiseringen. Du kan tilføje en anden variabel og ændre farven på dataene.

I dette tilfælde føjes drevkolonnen til koden, og den æstetiske kortlægningsfunktion bruges til at ændre dens farve.

Opret bivariate visualiseringer i R ved hjælp af Ggplot2

Når du kører koden, vil du se, at plottet viser scatterplot og korrelationsværdierne efter drev. Diagonalen viser også afhængigt af hvert drev.

Opret bivariate visualiseringer i R ved hjælp af Ggplot2

Konklusion

Hvis du vil skabe robuste og statistisk understøttede visualiseringer såsom histogrammer, scatterplot og boxplot, anbefales det at bruge ggplot2 med GGally.

R-programmeringssproget sammen med forskellige visualiseringspakker som ggplot2 giver brugerne mulighed for at bygge visualiseringer, der viser sammenhængen og sammenhængen mellem variabler.

GGally udvider ggplot2 ved at udvide flere funktioner, der reducerer kompleksiteten. Hvis du prøver at skabe bivariate og multivariate visualiseringer i LuckyTemplates, vil de vise sig at være en udfordring. Inden for programmeringssproget R behøver du dog kun at skrive en enkelt kodelinje for at nå frem til det statistiske plot, du har brug for.

Alt det bedste,

George Mount


Pipe In R: Tilslutningsfunktioner med Dplyr

Pipe In R: Tilslutningsfunktioner med Dplyr

I denne øvelse lærer du, hvordan du kæder funktioner sammen ved hjælp af dplyr-røroperatoren i programmeringssproget R.

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX Deep Dive: A Lucky Templates DAX-funktion

RANKX fra LuckyTemplates giver dig mulighed for at returnere rangeringen af ​​et specifikt tal i hver tabelrække, der udgør en del af en liste over tal.

Udpakning af LuckyTemplates-temaer og -billeder fra PBIX

Udpakning af LuckyTemplates-temaer og -billeder fra PBIX

Lær, hvordan du adskiller en PBIX-fil for at udtrække LuckyTemplates-temaer og -billeder fra baggrunden og bruge den til at oprette din rapport!

Excel Formler Snydeark: Mellemvejledning

Excel Formler Snydeark: Mellemvejledning

Excel Formler Snydeark: Mellemvejledning

LuckyTemplates kalendertabel: Hvad er det, og hvordan man bruger det

LuckyTemplates kalendertabel: Hvad er det, og hvordan man bruger det

LuckyTemplates kalendertabel: Hvad er det, og hvordan man bruger det

Python i LuckyTemplates: Sådan installeres og konfigureres

Python i LuckyTemplates: Sådan installeres og konfigureres

Lær, hvordan du installerer programmeringssproget Python i LuckyTemplates, og hvordan du bruger dets værktøjer til at skrive koder og vise billeder.

Beregning af dynamiske fortjenestemargener – nem analyse af LuckyTemplates med DAX

Beregning af dynamiske fortjenestemargener – nem analyse af LuckyTemplates med DAX

Lær, hvordan du beregner dynamiske fortjenstmargener ved siden af ​​LuckyTemplates, og hvordan du kan få mere indsigt ved at grave dybere ned i resultaterne.

Sortering af datotabelkolonner i LuckyTemplates

Sortering af datotabelkolonner i LuckyTemplates

Lær, hvordan du sorterer felterne fra kolonner med udvidet datotabel korrekt. Dette er en god strategi at gøre for vanskelige felter.

Find dine topprodukter for hver region i LuckyTemplates ved hjælp af DAX

Find dine topprodukter for hver region i LuckyTemplates ved hjælp af DAX

I denne artikel gennemgår jeg, hvordan du kan finde dine topprodukter pr. region ved hjælp af DAX-beregninger i LuckyTemplates, herunder funktionerne TOPN og CALCUATE.

Junk Dimension: Hvad er det, og hvorfor det er alt andet end junk

Junk Dimension: Hvad er det, og hvorfor det er alt andet end junk

Lær, hvordan du bruger en uønsket dimension til flag med lav kardinalitet, som du ønsker at inkorporere i din datamodel på en effektiv måde.