Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

Ez az oktatóanyag a dplyr csomagról szóló beszélgetés folytatása . Megtanulja, hogyan rendezheti, szűrheti és csoportosíthatja a sorokat az R-ben.

Az előző lecke az oszlopműveletekről szólt. Ezúttal a dplyr- ben végzett sorműveletek lesz a hangsúly .

Lefedjük az alapokat, beleértve az adatkészletek rendezését és szűrését , valamint a rekordok összesítését és összegzését . Ha áttekintést szeretne adni arról, hogy mire számíthat a leckében, gondoljon egy pivot táblára az MS Excelben.

Tartalomjegyzék

Elkezdeni

Nyisson meg egy új R-szkriptet az RStudióban.

Az oszlopműveletek leckéhez hasonlóan ez a bemutató is a Lahman adatkészlet-csomagot fogja használni . Töltsd le egy gyors google kereséssel.

A Lahman-csomag R-be hozásához futtassa a könyvtárat (Lahman) . A dplyr csomag engedélyezéséhez futtassa a library (tidyverse) parancsot . Továbbá, hogy az R - ben az elnevezési konvenciók bevált gyakorlata a kisbetűk használata, ezért a csapatokat csoportokba rendelje .

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

A sorműveletek alapvető funkciói

1. Rendezze el a sorokat R-ben

A dpylr első sorának művelete az arrange ( ) . Ez a funkció lehetővé teszi a sorok átrendezését. Úgy működik, hogy először a df adatkeretet , majd a megadott mezőket rendezi el.

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

Például rendezzünk csapatazonosító szerint . Fuss rendez (csapatok, csapatazonosító) .

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

Ha azt szeretné, hogy ezek csökkenő sorrendbe legyenek rendezve, akkor a desc ( ) funkciót kell használnia .

Például, ha csökkenő sorrendben szeretne év szerint rendezni, futtassa az arrange (teams, desc(yearID)) parancsot .

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

Ha ezt teszi, akkor nem rendeli vissza a kimenetet a csapatokhoz . Csak az eredményt látja a konzolban.

Több szempont szerint is rendezhető. Ha például csapatazonosító, majd évazonosító szerint szeretne rendezni csökkenő sorrendben, akkor csak ezt a kódot kell futtatnia:

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

A sorok rendezésekor nem módosítja az adatokat. Az adatok csak mozgatva vannak. Semmi sem kerül hozzáadásra vagy eltávolításra.

2. Szűrje ki a sorokat R-ben

A szűrő ( ) függvény a kiválasztott feltételektől függően adatokat ad hozzá vagy eltávolít. Alapkódja a következő:

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

Példaként vegyük be az összes adatot, ahol az évazonosító nagyobb vagy egyenlő, mint 2000. Kövesse a szűrőfüggvény formátumát, és adja meg a szükséges információkat. Akkor futtasd. Ne felejtse el hozzárendelni ezt egy új objektumhoz. Ebben az esetben a modern .

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

A dim ( ) funkció segítségével ellenőrizheti, hogy a sorok valóban ki lettek-e szűrve . Megadja az adatkeretben lévő sorok és oszlopok számát.

Ha a dim (teams) parancsot futtatja , látni fogja, hogy az adatkeret 2955 sorból és 48 oszlopból áll.

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

Ha a dim függvényt futtatja a modern rendszeren , látni fogja, hogy a sorok száma 630-ra csökkent, miközben az oszlopok száma változatlan marad.

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

A sorok csonkolva lettek, mert egyes rekordok túlmutatnak a 2000-es évnél.

Sorok szűrése több mező alapján

Lehetőség van a sorok szűrésére is több mező alapján az R-ben. Használnia kell az ÉS és a VAGY utasításokat.

Például szűrjük a csapatokat terület szerint. Ebben az esetben egy új ohio objektum jön létre. A szűrési feltételek szerint a teamID csak Clevelandet ÉS Cincinnatit tartalmazhat .

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

Az egyenlőség ellenőrzéséhez a kettős egyenlőségjelet ( == ) kell használni . Ha csak egy egyenlőségjelet használ, az R hozzárendelési operátornak tekinti. Használja az és ( & ) jelet az ÉS jelölésére .

Az ellenőrzéshez használja a dim funkciót. Látni fogja, hogy a sorok száma 0.

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

Ez azt jelenti, hogy nincs olyan csapat, ahol mindkettő Clevelandben és Cincinnatiben található.

Ezután próbáljuk ki a Cleveland VAGY Cincinnatit. A VAGY operátort a csőkezelő ( | ) képviseli . Tehát mindössze annyit kell tennie, hogy kicseréli az „és” jelet a csőkezelőre, majd futtassa. Ezután futtassa újra a dim funkciót.

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

Látni fogja, hogy nulla helyett 251 sor van.

Mi van akkor, ha elfelejtett kettős egyenlőségjelet használni, és csak egyet használ? Íme, mi történik:

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

Az RStudio egy nagyon hasznos hibaüzenetet jelenít meg a konzolon, emlékeztetve a kettős egyenlőségjel használatára.

3. Csoportosítsa és foglalja össze a sorokat R betűvel

A csoportosítás szerint ( ) funkció lehetővé teszi a rekordok összesítését kijelölt oszlopok szerint, majd az összesítés alapján egy másik oszlop összegzését.

A ( ) szerinti csoportosítás a következő algoritmust követi:

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

Példaként csoportosítsuk csoportazonosító alapján , és rendeljük hozzá egy új objektumhoz. Ebben az esetben az új objektum neve teams_ID . Ezután nyomtassa ki.

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

A konzolban észreveheti, hogy az első sor azt írja, hogy ez egy tibble .

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

A tibble az alapadatkerethez képest rendezett javulás. Ez egy olyan funkció a csomagban, amely kibővíti és javítja a már a dobozból elérhetőt.

A második sor a Csoportok . Tehát az adatok most a teamID oszlop szerint vannak csoportosítva.

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

És ezzel most már használhatja az összefoglaló ( ) függvényt ezeken a csoportokon.

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

Megjegyzés: az összegző függvény lehet s vagy z, és a brit vagy amerikai angol használatától függ.

Például foglaljuk össze a teams_ID-t , és készítsünk néhány alapvető összefoglaló statisztikát. Nézzük meg az egyes csapatok győzelmeinek átlagát, minimumát és maximumát. Ne felejtse el kiemelni a teljes kódot, mielőtt a Futtatás lehetőséget választja .

Sorok rendezése, szűrése és csoportosítása az R-ben a Dplyr használatával

Ezután a konzolon láthatja, hogy megjelenik az egyes csapatok statisztikáinak összegzése. Ez nagyon hasonlít egy pivot táblához, ahol az adatokat összesíti és összegzi.




Következtetés

Összefoglalva, két dplyr műveletet tárgyaltunk. Egy korábbi oktatóanyag az oszlopműveletekre összpontosított. Eközben ez az aktuális lecke megmutatta, hogyan hajthat végre sorműveleteket a dplyr csomag használatával az RStudio-ban. Pontosabban, megtanulta, hogyan kell elrendezni, szűrni és csoportosítani a sorokat az R-ben.

A következő dolog, amit meg kell tanulnunk, az az, hogy hogyan lehet kombinálni ezt a két műveletet. Az összes eddig tanult függvény használata nagymértékben segít a kódok létrehozásában R-ben. Egy hasznosabb technika azonban egy folyamat lenne. Ez segít mindennek összefolyni. Tehát feltétlenül tekintse át a következő oktatóanyagokat is.


LuckyTemplates alakzattérkép-vizualizáció a térbeli elemzéshez

LuckyTemplates alakzattérkép-vizualizáció a térbeli elemzéshez

Ez a blog tartalmazza a Shape Map vizualizációt a LuckyTemplates térbeli elemzéséhez. Megmutatom, hogyan használhatja hatékonyan ezt a vizualizációt annak funkcióival és elemeivel.

LuckyTemplates pénzügyi jelentések: az eredmények hozzárendelése a sablonokhoz minden egyes sorban

LuckyTemplates pénzügyi jelentések: az eredmények hozzárendelése a sablonokhoz minden egyes sorban

Ebben az oktatóanyagban egy egyedülálló ötletet mutatok be a pénzügyi jelentésekkel kapcsolatban, amely az eredmények hozzárendelését jelenti a LuckyTemplates-en belüli táblázatsablonok előre meghatározásához.

DAX-mértékek a LuckyTemplates-ben mértékelágazás használatával

DAX-mértékek a LuckyTemplates-ben mértékelágazás használatával

Hozzon létre DAX-mértékeket a LuckyTemplates alkalmazásban meglévő mértékek vagy képletek használatával. Ezt nevezem mértékelágazási technikának.

A legerősebb funkcióhívás a LuckyTemplatesben

A legerősebb funkcióhívás a LuckyTemplatesben

Ebben a blogban fedezze fel a LuckyTemplates adatkészletet, a leghatékonyabb függvényhívást, amely M- és DAX-függvények ezreit juttatja a keze ügyébe.

Adatmodellezési technikák a DAX-mérések megszervezéséhez

Adatmodellezési technikák a DAX-mérések megszervezéséhez

A mai oktatóanyagban megosztok néhány adatmodellezési technikát a DAX-mérések jobb rendszerezéséhez a hatékonyabb munkafolyamat érdekében.

LuckyTemplates pénzügyi irányítópult: Teljes táblázat testreszabási tippek

LuckyTemplates pénzügyi irányítópult: Teljes táblázat testreszabási tippek

A LuckyTemplates egy nagyszerű eszköz a pénzügyi jelentésekhez. Itt található egy oktatóanyag, amely bemutatja, hogyan hozhat létre személyre szabott táblázatokat a LuckyTemplates pénzügyi irányítópultjához.

A Power Query nyelvi folyamatának bevált gyakorlatai

A Power Query nyelvi folyamatának bevált gyakorlatai

Ez az oktatóanyag megvitatja a Power Query nyelvi folyamatot, és azt, hogyan segíthet zökkenőmentes és hatékony adatjelentések létrehozásában.

LuckyTemplates egyéni ikonok | PBI vizualizációs technika

LuckyTemplates egyéni ikonok | PBI vizualizációs technika

Az egyik kedvenc technikámról fogok beszélni a LuckyTemplates egyéni ikonok körül, amely dinamikusan használja az egyéni ikonokat a LuckyTemplates vizualizációkban.

LuckyTemplates táblázatok létrehozása UNION & ROW függvény használatával

LuckyTemplates táblázatok létrehozása UNION & ROW függvény használatával

Ebben a blogban megmutatom, hogyan hozhat létre LuckyTemplates táblázatokat olyan képlet segítségével, amely egyesíti az UNION és a ROW függvényt.

Helyszíni adatátjáró a Power Automate-ban

Helyszíni adatátjáró a Power Automate-ban

Fedezze fel, hogy a helyszíni adatátjáró hogyan teszi lehetővé a Power Automate számára az asztali alkalmazások elérését, amikor a felhasználó távol van a számítógéptől.