Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Tento tutoriál je pokračováním diskuse o balíčku dplyr . Naučíte se, jak uspořádat, filtrovat a seskupit řádky v R.

Předchozí lekce byla o operacích se sloupci. Tentokrát se zaměříme na operace s řádky v dplyr .

Budeme pokrývat základy, které zahrnují třídění a filtrování datové sady a agregaci a sumarizaci záznamů . Abyste měli přehled o tom, co můžete od této lekce očekávat, vzpomeňte si na kontingenční tabulku v MS Excel.

Obsah

Začínáme

Otevřete nový R skript v RStudio.

Podobně jako v lekci operace se sloupci bude tato ukázka používat balíček datové sady Lahman . Stáhněte si ji rychlým vyhledáváním Google.

Chcete-li přenést balíček Lahman do R, spusťte knihovnu (Lahman) . Chcete-li povolit balíček dplyr , spusťte knihovnu (tidyverse) . Také, že nejlepším postupem pro pojmenování konvencí v R je použití malých písmen, takže přiřaďte týmy do týmů .

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Základní funkce pro řádkové operace

1. Uspořádejte řádky v R

Operace prvního řádku v dpylr je uspořádat ( ) . Tato funkce umožňuje změnit pořadí řádků. Funguje to tak, že se nejprve uspořádá datový rámec df a poté daná pole.

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Seřaďme například podle teamID . Spustit uspořádání (týmy, ID týmu) .

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Pokud je chcete seřadit sestupně, musíte použít funkci desc ( ) .

Pokud chcete například seřadit podle roku v sestupném pořadí, spusťte aranžmá (týmy, desc(yearID)) .

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Když to uděláte, nepřiřadíte výstup zpět týmům . Výsledek právě vidíte v konzole.

Je také možné třídit podle více kritérií. Pokud chcete například seřadit podle teamID a potom yearID v sestupném pořadí, stačí spustit tento kód:

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Když řadíte řádky, neměníte data. Data se jen přesouvají. Nic se nepřidává ani neodebírá.

2. Filtrujte řádky v R

Funkce filtru ( ) přidává nebo odstraňuje data v závislosti na zvolených kritériích. Jeho základní kód je:

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Jako příklad získáme všechna data, kde yearID je větší nebo rovno 2000. Postupujte podle formátu funkce filtru a zadejte potřebné informace. Pak to spusťte. Nezapomeňte to přiřadit k novému objektu. V tomto případě byla přidělena moderní .

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Chcete-li zkontrolovat, zda byly řádky skutečně filtrovány, můžete použít funkci dim ( ) . Udává počet řádků a sloupců v datovém rámci.

Pokud spustíte dim (týmy) , uvidíte, že datový rámec má 2 955 řádků a 48 sloupců.

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Pokud spustíte funkci dim na modern , uvidíte, že počet řádků byl snížen na 630, zatímco počet sloupců zůstal stejný.

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Řádky byly zkráceny, protože některé záznamy přesahují rok 2000.

Filtrovat řádky podle více polí

Je také možné filtrovat řádky podle více polí v R. Budete muset použít příkazy AND a OR .

Pojďme například filtrovat týmy podle oblasti. V tomto případě se vytvoří nový objekt ohio . Kritéria filtru jsou taková, že ID týmu by mělo zahrnovat pouze Cleveland A Cincinnati.

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Ke kontrole rovnosti musíte použít dvojité znaménko rovná se ( == ). Pokud použijete pouze jedno rovnítko, R jej bude považovat za operátor přiřazení. K vyjádření AND použijte ampersand ( & ) .

Pro kontrolu použijte funkci stmívání . Uvidíte, že počet řádků je 0.

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

To znamená, že neexistují žádné týmy, které by oba sídlily v Clevelandu a Cincinnati.

Dále zkusme Cleveland OR Cincinnati. Operátor OR je reprezentován operátorem potrubí ( | ). Vše, co musíte udělat, je nahradit ampersand operátorem potrubí a poté jej spustit. Poté znovu spusťte funkci stmívání .

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Uvidíte, že místo nuly je 251 řádků.

Co když zapomenete použít dvojité rovnítko a místo toho použijete jen jedno? Co se stane:

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

RStudio zobrazí velmi užitečnou chybovou zprávu v konzole, která vám připomene použít dvojité znaménko rovná se.

3. Seskupte a shrňte řádky v R

Funkce seskupit podle ( ) umožňuje agregovat záznamy podle vybraných sloupců a poté na základě této agregace shrnout další sloupec.

Funkce seskupit podle ( ) se řídí tímto algoritmem:

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Jako příklad seskupíme podle ID týmu a přiřadíme jej k novému objektu. V tomto případě se nový objekt nazývá team_ID . Poté jej vytiskněte.

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

V konzole si všimnete, že na prvním řádku je uvedeno, že jde o tibble .

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Tibble je uspořádané vylepšení oproti základnímu datovému rámci . Je to funkce v balíčku, která rozšiřuje a vylepšuje to, co je k dispozici ihned po vybalení.

Druhý řádek je Skupiny . Data jsou tedy nyní seskupena podle sloupce ID týmu.

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

A s tím můžete nyní na těchto skupinách použít funkci shrnutí ( ) .

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Poznámka: funkce sumarizace může mít buď s nebo z a bude záviset na použití britské nebo americké angličtiny.

Shrňme si například týmy_ID a získáme základní souhrnné statistiky. Hledejme průměr, minimum a maximum výher pro každý tým. Před volbou Spustit nezapomeňte zvýraznit celý kód .

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

V konzole pak můžete vidět, že se zobrazí souhrn statistik každého týmu. Je to velmi podobné kontingenční tabulce, kde agregujete a sumarizujete data.




Závěr

Abychom to shrnuli, byly probrány dvě operace v dplyr. Předchozí tutoriál zaměřený na operace se sloupci. Mezitím vám tato aktuální lekce ukázala, jak provádět operace s řádky pomocí balíčku dplyr v RStudio. Konkrétně jste se naučili, jak uspořádat, filtrovat a seskupit řádky v R.

Další věcí, kterou se musíte naučit, je, jak tyto dvě operace kombinovat. Používání všech funkcí, které jste se dosud naučili, vám výrazně pomůže při vytváření kódů v R. Užitečnější technikou by však bylo potrubí. To pomůže, aby vše plynulo dohromady. Nezapomeňte si tedy prohlédnout i další tutoriály.


Ako nainštalovať DAX Studio & Tabular Editor v LuckyTemplates

Ako nainštalovať DAX Studio & Tabular Editor v LuckyTemplates

Zistite, ako stiahnuť a nainštalovať DAX Studio a Tabular Editor 3 a ako ich nakonfigurovať na použitie v LuckyTemplates a v Exceli.

LuckyTemplates Vizualizácia tvarovej mapy pre priestorovú analýzu

LuckyTemplates Vizualizácia tvarovej mapy pre priestorovú analýzu

Tento blog obsahuje vizualizáciu Shape Map pre priestorovú analýzu v LuckyTemplates. Ukážem vám, ako môžete efektívne využiť túto vizualizáciu s jej funkciami a prvkami.

LuckyTemplates Finančné výkazníctvo: Prideľovanie výsledkov šablónam v každom jednom riadku

LuckyTemplates Finančné výkazníctvo: Prideľovanie výsledkov šablónam v každom jednom riadku

V tomto návode predstavujem jedinečný nápad týkajúci sa finančného výkazníctva, ktorý spočíva v prideľovaní výsledkov na vopred určené šablóny tabuliek v rámci LuckyTemplates.

DAX měří v LuckyTemplates pomocí Measure Branching

DAX měří v LuckyTemplates pomocí Measure Branching

Vytvářejte míry DAX v LuckyTemplates pomocí existujících mír nebo vzorců. Tomu říkám technika větvení opatření.

Najvýkonnejšie volanie funkcie v LuckyTemplates

Najvýkonnejšie volanie funkcie v LuckyTemplates

V tomto blogu preskúmajte množinu údajov LuckyTemplates, najvýkonnejšie volanie funkcií, ktoré vám prináša tisíce funkcií M a DAX na dosah ruky.

Techniky modelovania údajov na organizáciu opatrení DAX

Techniky modelovania údajov na organizáciu opatrení DAX

V dnešnom návode sa podelím o niekoľko techník modelovania údajov o tom, ako lepšie usporiadať vaše merania DAX pre efektívnejší pracovný tok.

LuckyTemplates Financial Dashboard: Kompletné tipy na prispôsobenie tabuľky

LuckyTemplates Financial Dashboard: Kompletné tipy na prispôsobenie tabuľky

LuckyTemplates je skvelý nástroj pre finančné výkazníctvo. Tu je návod, ako vytvoriť prispôsobené tabuľky pre váš finančný dashboard LuckyTemplates.

Osvedčené postupy toku jazyka Power Query

Osvedčené postupy toku jazyka Power Query

V tomto návode sa bude diskutovať o toku jazyka Power Query a o tom, ako môže pomôcť vytvoriť hladkú a efektívnu zostavu údajov.

LuckyTemplates vlastní ikony | Vizualizační technika PBI

LuckyTemplates vlastní ikony | Vizualizační technika PBI

Budu diskutovat o jedné z mých oblíbených technik kolem vlastních ikon LuckyTemplates, která používá vlastní ikony dynamickým způsobem ve vizuálech LuckyTemplates.

Vytváření tabulek LuckyTemplates pomocí funkce UNION & ROW

Vytváření tabulek LuckyTemplates pomocí funkce UNION & ROW

V tomto blogu vám ukážu, jak můžete vytvořit tabulky LuckyTemplates pomocí vzorce, který kombinuje funkci UNION a funkci ROW.