Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Denne opplæringen er en fortsettelse av diskusjonen om dplyr -pakken. Du lærer hvordan du ordner, filtrerer og grupperer rader i R.

Forrige leksjon handlet om kolonneoperasjoner. Denne gangen vil fokuset være på raddrift i dplyr .

Vi vil dekke det grunnleggende som inkluderer sortering og filtrering av et datasett og aggregering og oppsummering av poster . For å gi deg en oversikt over hva du kan forvente for denne leksjonen, tenk på en pivottabell i MS Excel.

Innholdsfortegnelse

Starter

Åpne et nytt R-skript i RStudio.

I likhet med leksjonen om kolonneoperasjoner vil denne demonstrasjonen bruke Lahman-datasettet . Last den ned ved å gjøre et raskt google-søk.

For å bringe Lahman-pakken inn i R, kjør bibliotek (Lahman) . For å aktivere dplyr -pakken, kjør library (tidyverse) . Også at en beste praksis for navnekonvensjoner i R er å bruke små bokstaver, så tildel Teams i team .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Grunnleggende funksjoner for radoperasjoner

1. Ordne rader i R

Den første radoperasjonen i dpylr er arrange ( ) . Denne funksjonen lar deg omorganisere rader. Det fungerer ved først å ordne datarammen df og deretter de gitte feltene.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

La oss for eksempel sortere etter teamID . Kjør arrangement (lag, teamID) .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Hvis du vil at de skal ordnes i synkende rekkefølge, må du bruke funksjonen desc ( ) .

For eksempel, hvis du ønsker å sortere etter år i synkende rekkefølge, kjør arrangement (lag, desc(yearID)) .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Når du gjør dette, tildeler du ikke utdataene tilbake til team . Du ser bare resultatet i konsollen.

Det er også mulig å sortere etter flere kriterier. For eksempel, hvis du vil sortere etter teamID og deretter yearID i synkende rekkefølge, trenger du bare å kjøre denne koden:

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Når du sorterer rader, endrer du ikke dataene. Dataene blir bare flyttet rundt. Ingenting blir lagt til eller fjernet.

2. Filtrer rader i R

Filter -funksjonen ( ) legger til eller fjerner data avhengig av kriteriene som er valgt. Dens grunnleggende kode er:

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Som et eksempel, la oss få alle dataene der yearID er større enn eller lik 2000. Følg filterfunksjonens format og skriv inn nødvendig informasjon. Kjør den så. Ikke glem å tilordne dette til et nytt objekt. I dette tilfellet ble det tildelt moderne .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

For å sjekke om radene faktisk ble filtrert, kan du bruke funksjonen dimme ( ) . Den gir antall rader og kolonner i datarammen.

Hvis du kjører dim (team) , vil du se at datarammen har 2 955 rader og 48 kolonner.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Hvis du kjører dimmefunksjonenmoderne , vil du se at antall rader er redusert til 630 mens antallet kolonner forblir det samme.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Radene er avkortet fordi noen av postene går utover år 2000.

Filtrer rader etter flere felt

Det er også mulig å filtrere rader etter flere felt i R. Du må bruke AND- og OR- setningene.

La oss for eksempel filtrere lag etter område. I dette tilfellet opprettes et nytt objekt ohio . Filterkriteriene er at teamID bare skal inkludere Cleveland OG Cincinnati.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Du må bruke det doble likhetstegnet ( == ) for å sjekke likhet. Hvis du bare bruker ett likhetstegn, vil R vurdere det som en tilordningsoperatør. Bruk og-tegnet ( & ) for å representere OG.

For å sjekke, bruk dimmefunksjonen . Du vil se at antall rader er 0.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Dette betyr at det ikke er noen lag der de begge er basert i Cleveland og Cincinnati.

La oss deretter prøve Cleveland ELLER Cincinnati. OR-operatøren er representert av røroperatøren ( | ). Så alt du trenger å gjøre er å erstatte og-tegnet med røroperatøren og deretter kjøre den. Etterpå kjører du dimmefunksjonen igjen.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Du vil se at det er 251 rader i stedet for null.

Hva om du glemmer å bruke et dobbelt likhetstegn og i stedet bruker bare ett? Her er hva som skjer:

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

RStudio vil vise en veldig nyttig feilmelding i konsollen som minner deg om å bruke det doble likhetstegnet.

3. Grupper etter og oppsummer rader i R

Gruppe etter ( ) -funksjonen lar deg samle poster etter valgte kolonner og deretter, basert på den aggregeringen, oppsummere en annen kolonne.

Gruppe etter ( )-funksjonen følger denne algoritmen:

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Som et eksempel, la oss gruppere etter teamID og tilordne det til et nytt objekt. I dette tilfellet kalles det nye objektet teams_ID . Skriv den deretter ut.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

I konsollen vil du legge merke til at den første linjen sier at det er en tibble .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

En tibble er en ryddig forbedring i forhold til den grunnleggende datarammen. Det er en funksjon i pakken som forsterker og forbedrer det som er tilgjengelig ut av esken.

Den andre linjen er grupper . Så dataene er nå gruppert etter teamID-kolonnen.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Og med det kan du nå bruke oppsummeringsfunksjonen ( ) på disse gruppene.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Merk: oppsummeringsfunksjonen kan enten være med s eller z, og vil avhenge av bruken av britisk eller amerikansk engelsk.

La oss for eksempel oppsummere teams_ID og få noen grunnleggende sammendragsstatistikker. La oss se etter gjennomsnittet, minimum og maksimum av gevinstene for hvert lag. Husk å markere hele koden før du velger å Kjør .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Du kan da se i konsollen at et sammendrag av hvert lags statistikk vises. Dette ligner veldig på en pivottabell der du samler og oppsummerer data.




Konklusjon

For å oppsummere har to operasjoner i dplyr blitt diskutert. En tidligere opplæring fokuserte på kolonneoperasjoner. I mellomtiden viste denne gjeldende leksjonen deg hvordan du utfører radoperasjoner ved å bruke dplyr -pakken i RStudio. Spesifikt lærte du hvordan du ordner, filtrerer og grupperer rader i R.

Den neste tingen å lære er hvordan man kombinerer disse to operasjonene. Å bruke alle funksjonene du har lært så langt vil hjelpe deg med å lage koder i R. En mer nyttig teknikk ville imidlertid være en pipeline. Dette vil hjelpe alt flyte sammen. Så sørg for å se gjennom de neste veiledningene også.


Pipe In R: Koblingsfunksjoner med Dplyr

Pipe In R: Koblingsfunksjoner med Dplyr

I denne opplæringen lærer du hvordan du kobler funksjoner sammen ved å bruke dplyr-røroperatøren i programmeringsspråket R.

RANKX Deep Dive: A LuckyTemplates DAX-funksjon

RANKX Deep Dive: A LuckyTemplates DAX-funksjon

RANKX fra LuckyTemplates lar deg returnere rangeringen til et spesifikt tall i hver tabellrad som utgjør en del av en liste med tall.

Trekker ut LuckyTemplates-temaer og bilder fra PBIX

Trekker ut LuckyTemplates-temaer og bilder fra PBIX

Lær hvordan du demonterer en PBIX-fil for å trekke ut LuckyTemplates-temaer og bilder fra bakgrunnen og bruke den til å lage rapporten din!

Excel Formulas Cheat Sheet: Mellomveiledning

Excel Formulas Cheat Sheet: Mellomveiledning

Excel Formulas Cheat Sheet: Mellomveiledning

LuckyTemplates-kalendertabell: Hva er det og hvordan du bruker det

LuckyTemplates-kalendertabell: Hva er det og hvordan du bruker det

LuckyTemplates-kalendertabell: Hva er det og hvordan du bruker det

Python i LuckyTemplates: Hvordan installere og sette opp

Python i LuckyTemplates: Hvordan installere og sette opp

Lær hvordan du installerer programmeringsspråket Python i LuckyTemplates og hvordan du bruker verktøyene til å skrive koder og vise visuelle elementer.

Beregning av dynamiske fortjenestemarginer – enkel analyse av LuckyTemplates med DAX

Beregning av dynamiske fortjenestemarginer – enkel analyse av LuckyTemplates med DAX

Lær hvordan du beregner dynamiske fortjenestemarginer ved siden av LuckyTemplates og hvordan du kan få mer innsikt ved å grave dypere inn i resultatene.

Sortering av datotabellkolonner i LuckyTemplates

Sortering av datotabellkolonner i LuckyTemplates

Lær hvordan du sorterer feltene fra kolonner med utvidet datotabell på riktig måte. Dette er en god strategi å gjøre for vanskelige felt.

Finn dine beste produkter for hver region i LuckyTemplates ved å bruke DAX

Finn dine beste produkter for hver region i LuckyTemplates ved å bruke DAX

I denne artikkelen går jeg gjennom hvordan du kan finne de beste produktene dine per region ved å bruke DAX-beregninger i LuckyTemplates, inkludert TOPN- og CALCUATE-funksjonene.

Søppeldimensjon: Hva er det og hvorfor det er alt annet enn søppel

Søppeldimensjon: Hva er det og hvorfor det er alt annet enn søppel

Lær hvordan du bruker en søppeldimensjon for flagg med lav kardinalitet som du ønsker å inkludere i datamodellen din på en effektiv måte.