Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

Denna handledning är en fortsättning på diskussionen om dplyr -paketet. Du lär dig hur du ordnar, filtrerar och grupperar rader i R.

Förra lektionen handlade om kolumnoperationer. Den här gången kommer fokus att ligga på raddrift i dplyr .

Vi kommer att täcka grunderna som inkluderar sortering och filtrering av en datauppsättning och aggregering och sammanfattning av poster . För att ge dig en överblick över vad du kan förvänta dig för den här lektionen, tänk på en pivottabell i MS Excel.

Innehållsförteckning

Komma igång

Öppna ett nytt R-skript i RStudio.

På samma sätt som i kolumnoperationslektionen kommer denna demonstration att använda Lahmans datauppsättningspaket . Ladda ner den genom att göra en snabb google-sökning.

För att ta med Lahman-paketet till R, kör bibliotek (Lahman) . För att aktivera dplyr -paketet, kör library (tidyverse) . Dessutom att en bästa praxis för att namnge konventioner i R är att använda små bokstäver så tilldela Teams i team .

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

Grundläggande funktioner för radoperationer

1. Ordna rader i R

Den första radens operation i dpylr är arrangera ( ) . Denna funktion låter dig ändra ordning på rader. Det fungerar genom att först ordna dataramen df och sedan de givna fälten.

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

Låt oss till exempel sortera efter teamID . Kör arrangera (lag, teamID) .

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

Om du vill att de ska ordnas i fallande ordning måste du använda funktionen desc ( ) .

Som ett exempel, om du vill sortera efter år i fallande ordning, kör arrangera (team, desc(yearID)) .

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

När du gör detta tilldelar du inte utdata tillbaka till team . Du ser bara resultatet i konsolen.

Det är också möjligt att sortera efter flera kriterier. Om du till exempel vill sortera efter teamID och sedan yearID i fallande ordning behöver du bara köra denna kod:

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

När du sorterar rader ändrar du inte data. Data flyttas bara runt. Inget läggs till eller tas bort.

2. Filtrera rader i R

Filterfunktionen ( ) lägger till eller tar bort data beroende på de valda kriterierna. Dess grundläggande kod är:

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

Som ett exempel, låt oss få all data där yearID är större än eller lika med 2000. Följ filterfunktionens format och mata in den information som behövs. Kör sedan. Glöm inte att tilldela detta till ett nytt objekt. I det här fallet tilldelades den modern .

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

För att kontrollera om raderna verkligen var filtrerade kan du använda funktionen dim ( ) . Den anger antalet rader och kolumner i dataramen.

Om du kör dim (lag) ser du att dataramen har 2 955 rader och 48 kolumner.

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

Om du kör nedtoningsfunktionenmodern ser du att antalet rader har reducerats till 630 medan antalet kolumner förblir detsamma.

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

Raderna har trunkerats eftersom vissa av posterna går längre än år 2000.

Filtrera rader efter flera fält

Det är också möjligt att filtrera rader efter flera fält i R. Du måste använda AND- och OR -satserna.

Låt oss till exempel filtrera lag efter område. I detta fall skapas ett nytt objekt ohio . Filterkriterierna är att teamID endast ska inkludera Cleveland OCH Cincinnati.

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

Du måste använda det dubbla likhetstecknet ( == ) för att kontrollera likheten. Om du bara använder ett likhetstecken kommer R att betrakta det som en tilldelningsoperatör. Använd et-tecken ( & ) för att representera OCH.

För att kontrollera, använd dimfunktionen . Du kommer att se att antalet rader är 0.

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

Det betyder att det inte finns några lag där de båda är baserade i Cleveland och Cincinnati.

Låt oss sedan prova Cleveland ELLER Cincinnati. OR-operatorn representeras av röroperatorn ( | ). Så allt du behöver göra är att byta ut et-tecken med röroperatören och sedan köra det. Kör sedan dimfunktionen igen.

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

Du kommer att se att det finns 251 rader istället för noll.

Vad händer nu om du glömmer att använda ett dubbelt likhetstecken och istället använder bara ett? Så här händer:

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

RStudio kommer att visa ett mycket användbart felmeddelande i konsolen som påminner dig om att använda det dubbla likhetstecknet.

3. Gruppera efter och sammanfatta rader i R

Funktionen gruppera efter ( ) låter dig aggregera poster efter valda kolumner och sedan, baserat på den sammanställningen, sammanfatta en annan kolumn.

Funktionen grupp efter ( ) följer denna algoritm:

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

Som ett exempel, låt oss gruppera efter teamID och tilldela det till ett nytt objekt. I det här fallet kallas det nya objektet teams_ID . Skriv sedan ut den.

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

I konsolen kommer du att märka att den första raden säger att det är en tibble .

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

En tibble är en rejäl förbättring jämfört med den grundläggande dataramen. Det är en funktion i paketet som förstärker och förbättrar det som finns tillgängligt direkt från förpackningen.

Den andra raden är Grupper . Så, data är nu grupperade efter teamID-kolumnen.

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

Och med det kan du nu använda funktionen summera ( ) på dessa grupper.

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

Notera: sammanfattningsfunktionen kan antingen vara med ett s eller z, och beror på användningen av brittisk eller amerikansk engelska.

Låt oss till exempel sammanfatta teams_ID och få lite grundläggande sammanfattningsstatistik. Låt oss leta efter medelvärdet, minimum och maximum av vinsterna för varje lag. Kom ihåg att markera hela koden innan du väljer att köra .

Ordna, filtrera och gruppera rader i R med hjälp av Dplyr

Du kan sedan se i konsolen att en sammanfattning av varje lags statistik visas. Detta påminner mycket om en pivottabell där du aggregerar och sammanfattar data.




Slutsats

För att sammanfatta har två operationer i dplyr diskuterats. En tidigare handledning fokuserade på kolumnoperationer. Samtidigt visade den här aktuella lektionen dig hur du utför radoperationer med hjälp av dplyr -paketet i RStudio. Specifikt lärde du dig att ordna, filtrera och gruppera rader i R.

Nästa sak att lära sig är hur man kombinerar dessa två operationer. Att använda alla funktioner du har lärt dig hittills kommer att hjälpa dig att skapa koder i R. En mer användbar teknik skulle dock vara en pipeline. Detta kommer att hjälpa allt att flyta ihop. Så se till att granska nästa handledning också.

Leave a Comment

Skapa en datumtabell i LuckyTemplates

Skapa en datumtabell i LuckyTemplates

Ta reda på varför det är viktigt att ha en dedikerad datumtabell i LuckyTemplates och lär dig det snabbaste och mest effektiva sättet att göra det.

LuckyTemplates mobilrapporteringstips och tekniker

LuckyTemplates mobilrapporteringstips och tekniker

Denna korta handledning belyser LuckyTemplates mobilrapporteringsfunktion. Jag ska visa dig hur du kan utveckla rapporter effektivt för mobila enheter.

Professional Service Analytics-rapporter i LuckyTemplates

Professional Service Analytics-rapporter i LuckyTemplates

I denna LuckyTemplates Showcase går vi igenom rapporter som visar professionell serviceanalys från ett företag som har flera kontrakt och kundengagemang.

Microsoft Power Platform-uppdateringar | Microsoft Ignite 2021

Microsoft Power Platform-uppdateringar | Microsoft Ignite 2021

Gå igenom de viktigaste uppdateringarna för Power Apps och Power Automate och deras fördelar och konsekvenser för Microsoft Power Platform.

Vanliga SQL-funktioner: En översikt

Vanliga SQL-funktioner: En översikt

Upptäck några vanliga SQL-funktioner som vi kan använda som sträng, datum och några avancerade funktioner för att bearbeta eller manipulera data.

LuckyTemplates Skapa mall: Guide och tips

LuckyTemplates Skapa mall: Guide och tips

I den här handledningen kommer du att lära dig hur du skapar din perfekta LuckyTemplates-mall som är konfigurerad efter dina behov och preferenser.

Fältparametrar och små multiplar i LuckyTemplates

Fältparametrar och små multiplar i LuckyTemplates

I den här bloggen kommer vi att visa hur man lager fältparametrar med små multiplar för att skapa otroligt användbara insikter och bilder.

LuckyTemplates Rank och anpassad gruppering

LuckyTemplates Rank och anpassad gruppering

I den här bloggen kommer du att lära dig hur du använder LuckyTemplates ranknings- och anpassade grupperingsfunktioner för att segmentera en exempeldata och rangordna den enligt kriterier.

Visar kumulativ total endast upp till ett visst datum i LuckyTemplates

Visar kumulativ total endast upp till ett visst datum i LuckyTemplates

I den här handledningen kommer jag att täcka en specifik teknik kring hur man visar Kumulativ total endast upp till ett specifikt datum i dina bilder i LuckyTemplates.

Punktdiagram: Avancerade anpassade bilder för LuckyTemplates

Punktdiagram: Avancerade anpassade bilder för LuckyTemplates

Lär dig hur du skapar och anpassar punktdiagram i LuckyTemplates, som huvudsakligen används för att mäta prestanda mot mål eller tidigare år.