Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Tento tutoriál je pokračováním diskuse o balíčku dplyr . Naučíte se, jak uspořádat, filtrovat a seskupit řádky v R.

Předchozí lekce byla o operacích se sloupci. Tentokrát se zaměříme na operace s řádky v dplyr .

Budeme pokrývat základy, které zahrnují třídění a filtrování datové sady a agregaci a sumarizaci záznamů . Abyste měli přehled o tom, co můžete od této lekce očekávat, vzpomeňte si na kontingenční tabulku v MS Excel.

Obsah

Začínáme

Otevřete nový R skript v RStudio.

Podobně jako v lekci operace se sloupci bude tato ukázka používat balíček datové sady Lahman . Stáhněte si ji rychlým vyhledáváním Google.

Chcete-li přenést balíček Lahman do R, spusťte knihovnu (Lahman) . Chcete-li povolit balíček dplyr , spusťte knihovnu (tidyverse) . Také, že nejlepším postupem pro pojmenování konvencí v R je použití malých písmen, takže přiřaďte týmy do týmů .

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Základní funkce pro řádkové operace

1. Uspořádejte řádky v R

Operace prvního řádku v dpylr je uspořádat ( ) . Tato funkce umožňuje změnit pořadí řádků. Funguje to tak, že se nejprve uspořádá datový rámec df a poté daná pole.

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Seřaďme například podle teamID . Spustit uspořádání (týmy, ID týmu) .

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Pokud je chcete seřadit sestupně, musíte použít funkci desc ( ) .

Pokud chcete například seřadit podle roku v sestupném pořadí, spusťte aranžmá (týmy, desc(yearID)) .

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Když to uděláte, nepřiřadíte výstup zpět týmům . Výsledek právě vidíte v konzole.

Je také možné třídit podle více kritérií. Pokud chcete například seřadit podle teamID a potom yearID v sestupném pořadí, stačí spustit tento kód:

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Když řadíte řádky, neměníte data. Data se jen přesouvají. Nic se nepřidává ani neodebírá.

2. Filtrujte řádky v R

Funkce filtru ( ) přidává nebo odstraňuje data v závislosti na zvolených kritériích. Jeho základní kód je:

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Jako příklad získáme všechna data, kde yearID je větší nebo rovno 2000. Postupujte podle formátu funkce filtru a zadejte potřebné informace. Pak to spusťte. Nezapomeňte to přiřadit k novému objektu. V tomto případě byla přidělena moderní .

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Chcete-li zkontrolovat, zda byly řádky skutečně filtrovány, můžete použít funkci dim ( ) . Udává počet řádků a sloupců v datovém rámci.

Pokud spustíte dim (týmy) , uvidíte, že datový rámec má 2 955 řádků a 48 sloupců.

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Pokud spustíte funkci dim na modern , uvidíte, že počet řádků byl snížen na 630, zatímco počet sloupců zůstal stejný.

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Řádky byly zkráceny, protože některé záznamy přesahují rok 2000.

Filtrovat řádky podle více polí

Je také možné filtrovat řádky podle více polí v R. Budete muset použít příkazy AND a OR .

Pojďme například filtrovat týmy podle oblasti. V tomto případě se vytvoří nový objekt ohio . Kritéria filtru jsou taková, že ID týmu by mělo zahrnovat pouze Cleveland A Cincinnati.

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Ke kontrole rovnosti musíte použít dvojité znaménko rovná se ( == ). Pokud použijete pouze jedno rovnítko, R jej bude považovat za operátor přiřazení. K vyjádření AND použijte ampersand ( & ) .

Pro kontrolu použijte funkci stmívání . Uvidíte, že počet řádků je 0.

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

To znamená, že neexistují žádné týmy, které by oba sídlily v Clevelandu a Cincinnati.

Dále zkusme Cleveland OR Cincinnati. Operátor OR je reprezentován operátorem potrubí ( | ). Vše, co musíte udělat, je nahradit ampersand operátorem potrubí a poté jej spustit. Poté znovu spusťte funkci stmívání .

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Uvidíte, že místo nuly je 251 řádků.

Co když zapomenete použít dvojité rovnítko a místo toho použijete jen jedno? Co se stane:

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

RStudio zobrazí velmi užitečnou chybovou zprávu v konzole, která vám připomene použít dvojité znaménko rovná se.

3. Seskupte a shrňte řádky v R

Funkce seskupit podle ( ) umožňuje agregovat záznamy podle vybraných sloupců a poté na základě této agregace shrnout další sloupec.

Funkce seskupit podle ( ) se řídí tímto algoritmem:

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Jako příklad seskupíme podle ID týmu a přiřadíme jej k novému objektu. V tomto případě se nový objekt nazývá team_ID . Poté jej vytiskněte.

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

V konzole si všimnete, že na prvním řádku je uvedeno, že jde o tibble .

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Tibble je uspořádané vylepšení oproti základnímu datovému rámci . Je to funkce v balíčku, která rozšiřuje a vylepšuje to, co je k dispozici ihned po vybalení.

Druhý řádek je Skupiny . Data jsou tedy nyní seskupena podle sloupce ID týmu.

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

A s tím můžete nyní na těchto skupinách použít funkci shrnutí ( ) .

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

Poznámka: funkce sumarizace může mít buď s nebo z a bude záviset na použití britské nebo americké angličtiny.

Shrňme si například týmy_ID a získáme základní souhrnné statistiky. Hledejme průměr, minimum a maximum výher pro každý tým. Před volbou Spustit nezapomeňte zvýraznit celý kód .

Uspořádat, filtrovat a seskupit řádky v R pomocí Dplyr

V konzole pak můžete vidět, že se zobrazí souhrn statistik každého týmu. Je to velmi podobné kontingenční tabulce, kde agregujete a sumarizujete data.




Závěr

Abychom to shrnuli, byly probrány dvě operace v dplyr. Předchozí tutoriál zaměřený na operace se sloupci. Mezitím vám tato aktuální lekce ukázala, jak provádět operace s řádky pomocí balíčku dplyr v RStudio. Konkrétně jste se naučili, jak uspořádat, filtrovat a seskupit řádky v R.

Další věcí, kterou se musíte naučit, je, jak tyto dvě operace kombinovat. Používání všech funkcí, které jste se dosud naučili, vám výrazně pomůže při vytváření kódů v R. Užitečnější technikou by však bylo potrubí. To pomůže, aby vše plynulo dohromady. Nezapomeňte si tedy prohlédnout i další tutoriály.


Vytvoření tabulky data v LuckyTemplates

Vytvoření tabulky data v LuckyTemplates

Zjistěte, proč je důležité mít vyhrazenou tabulku s daty v LuckyTemplates, a naučte se nejrychlejší a nejefektivnější způsob, jak toho dosáhnout.

LuckyTemplates Mobile Reporting Tipy a techniky

LuckyTemplates Mobile Reporting Tipy a techniky

Tento stručný návod zdůrazňuje funkci mobilního hlášení LuckyTemplates. Ukážu vám, jak můžete efektivně vytvářet přehledy pro mobily.

Profesionální servisní analytické zprávy v LuckyTemplates

Profesionální servisní analytické zprávy v LuckyTemplates

V této ukázce LuckyTemplates si projdeme sestavy ukazující profesionální analýzy služeb od firmy, která má více smluv a zákaznických vztahů.

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Aktualizácie Microsoft Power Platform | Microsoft Ignite 2021

Pozrite si kľúčové aktualizácie pre Power Apps a Power Automate a ich výhody a dôsledky pre platformu Microsoft Power Platform.

Bežné funkcie SQL: Prehľad

Bežné funkcie SQL: Prehľad

Objavte niektoré bežné funkcie SQL, ktoré môžeme použiť, ako napríklad reťazec, dátum a niektoré pokročilé funkcie na spracovanie alebo manipuláciu s údajmi.

Vytvoření šablony LuckyTemplates: Průvodce a tipy

Vytvoření šablony LuckyTemplates: Průvodce a tipy

V tomto tutoriálu se naučíte, jak vytvořit dokonalou šablonu LuckyTemplates, která je nakonfigurována podle vašich potřeb a preferencí.

Parametry pole a malé násobky v LuckyTemplates

Parametry pole a malé násobky v LuckyTemplates

V tomto blogu si ukážeme, jak vrstvit parametry pole s malými násobky, abychom vytvořili neuvěřitelně užitečné přehledy a vizuály.

LuckyTemplates Rank a vlastní seskupení

LuckyTemplates Rank a vlastní seskupení

V tomto blogu se dozvíte, jak používat funkce hodnocení LuckyTemplates a vlastní seskupování k segmentaci ukázkových dat a jejich seřazení podle kritérií.

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

Zobrazení kumulativního součtu pouze do určitého data v LuckyTemplates

V tomto tutoriálu se budu zabývat konkrétní technikou, jak zobrazit kumulativní součet pouze do určitého data ve vašich vizuálech v LuckyTemplates.

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Bullet Charts: Pokročilé vlastní vizuální prvky pro LuckyTemplates

Naučte se vytvářet a přizpůsobovat Bullet grafy v LuckyTemplates, které se používají hlavně pro měření výkonu oproti cílovým nebo předchozím rokům.