A vizualizációk létrehozása R-ben a ggplot2 használatával hatékony módja lehet az adatok felfedezésének és megértésének. A vizualizáció egyik gyakori típusa a kétváltozós diagram, amely lehetővé teszi két változó közötti kapcsolat vizsgálatát.
Ebből az oktatóanyagból megtudhatja, hogyan hozhat létre kétváltozós vizualizációkat R-ben a ggplot2 használatával. Ez a blog kifejezetten arra fókuszál, amit nehéz lenne a LuckyTemplates, de könnyű megtenni R-ben.
Tartalomjegyzék
Áttekintés
Ebben az oktatóanyagban három fő téma kerül megvitatásra. Megtanulja, hogyan vizualizálhatja egy változó csoportonkénti eloszlását, és hogyan vizualizálhatja a korrelációkat és a páronkénti kapcsolatokat.
A páronkénti kapcsolat egy adott adatkészletben lévő változópárok közötti kapcsolatot jelenti.
Ehhez az oktatóanyaghoz le kell töltenie a ggplot2 csomagot. Ha elkészült, nyisson meg egy üres szkriptet, és hozzon be két könyvtárat: tidyverse és GGally .
A GGally a ggplot2 kiterjesztése. Úgy készült, hogy csökkentse a geometriai objektumok és az átalakított adatok kombinálásának bonyolultságát.
A különböző kétváltozós vizualizációk az R-ben
A kétváltozós vizualizáció két változó közötti kapcsolatot mutatja meg.
Példaként készítsünk egy vizualizációt, amely bemutatja a város és az autópálya kapcsolatát. Használnia kell a ggplot ( ) függvényt, majd hozzá kell rendelnie a megfelelő adatokat.
Ezután a geom_point ( ) függvényt használjuk a .
Vizualizációk az R-ben, korrelációt mutatva
A ggcorr () függvény a változók közötti korreláció megjelenítésére szolgál. Ez létrehoz egy hőtérképet a legalacsonyabbtól a legmagasabb korrelációs értékig. Tovább javíthatja a megjelenítést egy argumentum hozzáadásával, amely megjeleníti a címkéket.
Vizualizációk az R-ben, amelyek páronkénti kapcsolatot mutatnak be
A páronkénti ábrázoláshoz a ggpairs ( ) függvényt kell használni .
Mivel ebben a példában az adatkeret nagy adatkészletet tartalmaz, először szűrni kell, hogy csak numerikus értékek jelenjenek meg, különben az eredmények hibát jeleznek.
Az adatok szűréséhez használja a pipe operátort és a select_if ( ) függvényt.
A Plots lapon láthatja a kód által generált páros megjelenítést. Az egyes változók közötti grafikont és korrelációs értéket is láthatja.
Egy másik dolog, amit a páronkénti ábrázolásokkal tehet, az az, hogy további elemeket ad hozzá a megjelenítéshez. Hozzáadhat egy másik változót, és megváltoztathatja az adatok színét.
Ebben az esetben a meghajtó oszlopot hozzáadjuk a kódhoz, és az esztétikai leképezés funkcióval módosítjuk a színét.
A kód futtatásakor látni fogja, hogy a diagram szóródási diagramokat és meghajtónkénti korrelációs értékeket jelenít meg. Az átlón az egyes meghajtók szerint is látható.
Következtetés
Ha robusztus és statisztikailag alátámasztott vizualizációkat szeretne létrehozni, például hisztogramokat, szórt diagramokat és dobozdiagramokat, akkor javasolt a ggplot2 használata a GGally-val.
Az R programozási nyelv a különféle vizualizációs csomagokkal, például a ggplot2-vel együtt lehetővé teszi a felhasználók számára, hogy olyan vizualizációkat készítsenek, amelyek megmutatják a változók közötti kapcsolatot és korrelációt.
A GGally kibővíti a ggplot2-t számos olyan funkció kiegészítésével, amelyek csökkentik a bonyolultságot. Ha két- és többváltozós vizualizációkat próbál létrehozni a LuckyTemplates alkalmazásban, akkor ezek kihívást jelentenek. Az R programozási nyelven belül azonban csak egyetlen kódsort kell írnia, hogy elérje a szükséges statisztikai diagramot.
Minden jót,
George Mount