Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Denne opplæringen er en fortsettelse av diskusjonen om dplyr -pakken. Du lærer hvordan du ordner, filtrerer og grupperer rader i R.

Forrige leksjon handlet om kolonneoperasjoner. Denne gangen vil fokuset være på raddrift i dplyr .

Vi vil dekke det grunnleggende som inkluderer sortering og filtrering av et datasett og aggregering og oppsummering av poster . For å gi deg en oversikt over hva du kan forvente for denne leksjonen, tenk på en pivottabell i MS Excel.

Innholdsfortegnelse

Starter

Åpne et nytt R-skript i RStudio.

I likhet med leksjonen om kolonneoperasjoner vil denne demonstrasjonen bruke Lahman-datasettet . Last den ned ved å gjøre et raskt google-søk.

For å bringe Lahman-pakken inn i R, kjør bibliotek (Lahman) . For å aktivere dplyr -pakken, kjør library (tidyverse) . Også at en beste praksis for navnekonvensjoner i R er å bruke små bokstaver, så tildel Teams i team .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Grunnleggende funksjoner for radoperasjoner

1. Ordne rader i R

Den første radoperasjonen i dpylr er arrange ( ) . Denne funksjonen lar deg omorganisere rader. Det fungerer ved først å ordne datarammen df og deretter de gitte feltene.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

La oss for eksempel sortere etter teamID . Kjør arrangement (lag, teamID) .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Hvis du vil at de skal ordnes i synkende rekkefølge, må du bruke funksjonen desc ( ) .

For eksempel, hvis du ønsker å sortere etter år i synkende rekkefølge, kjør arrangement (lag, desc(yearID)) .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Når du gjør dette, tildeler du ikke utdataene tilbake til team . Du ser bare resultatet i konsollen.

Det er også mulig å sortere etter flere kriterier. For eksempel, hvis du vil sortere etter teamID og deretter yearID i synkende rekkefølge, trenger du bare å kjøre denne koden:

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Når du sorterer rader, endrer du ikke dataene. Dataene blir bare flyttet rundt. Ingenting blir lagt til eller fjernet.

2. Filtrer rader i R

Filter -funksjonen ( ) legger til eller fjerner data avhengig av kriteriene som er valgt. Dens grunnleggende kode er:

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Som et eksempel, la oss få alle dataene der yearID er større enn eller lik 2000. Følg filterfunksjonens format og skriv inn nødvendig informasjon. Kjør den så. Ikke glem å tilordne dette til et nytt objekt. I dette tilfellet ble det tildelt moderne .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

For å sjekke om radene faktisk ble filtrert, kan du bruke funksjonen dimme ( ) . Den gir antall rader og kolonner i datarammen.

Hvis du kjører dim (team) , vil du se at datarammen har 2 955 rader og 48 kolonner.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Hvis du kjører dimmefunksjonenmoderne , vil du se at antall rader er redusert til 630 mens antallet kolonner forblir det samme.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Radene er avkortet fordi noen av postene går utover år 2000.

Filtrer rader etter flere felt

Det er også mulig å filtrere rader etter flere felt i R. Du må bruke AND- og OR- setningene.

La oss for eksempel filtrere lag etter område. I dette tilfellet opprettes et nytt objekt ohio . Filterkriteriene er at teamID bare skal inkludere Cleveland OG Cincinnati.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Du må bruke det doble likhetstegnet ( == ) for å sjekke likhet. Hvis du bare bruker ett likhetstegn, vil R vurdere det som en tilordningsoperatør. Bruk og-tegnet ( & ) for å representere OG.

For å sjekke, bruk dimmefunksjonen . Du vil se at antall rader er 0.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Dette betyr at det ikke er noen lag der de begge er basert i Cleveland og Cincinnati.

La oss deretter prøve Cleveland ELLER Cincinnati. OR-operatøren er representert av røroperatøren ( | ). Så alt du trenger å gjøre er å erstatte og-tegnet med røroperatøren og deretter kjøre den. Etterpå kjører du dimmefunksjonen igjen.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Du vil se at det er 251 rader i stedet for null.

Hva om du glemmer å bruke et dobbelt likhetstegn og i stedet bruker bare ett? Her er hva som skjer:

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

RStudio vil vise en veldig nyttig feilmelding i konsollen som minner deg om å bruke det doble likhetstegnet.

3. Grupper etter og oppsummer rader i R

Gruppe etter ( ) -funksjonen lar deg samle poster etter valgte kolonner og deretter, basert på den aggregeringen, oppsummere en annen kolonne.

Gruppe etter ( )-funksjonen følger denne algoritmen:

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Som et eksempel, la oss gruppere etter teamID og tilordne det til et nytt objekt. I dette tilfellet kalles det nye objektet teams_ID . Skriv den deretter ut.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

I konsollen vil du legge merke til at den første linjen sier at det er en tibble .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

En tibble er en ryddig forbedring i forhold til den grunnleggende datarammen. Det er en funksjon i pakken som forsterker og forbedrer det som er tilgjengelig ut av esken.

Den andre linjen er grupper . Så dataene er nå gruppert etter teamID-kolonnen.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Og med det kan du nå bruke oppsummeringsfunksjonen ( ) på disse gruppene.

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Merk: oppsummeringsfunksjonen kan enten være med s eller z, og vil avhenge av bruken av britisk eller amerikansk engelsk.

La oss for eksempel oppsummere teams_ID og få noen grunnleggende sammendragsstatistikker. La oss se etter gjennomsnittet, minimum og maksimum av gevinstene for hvert lag. Husk å markere hele koden før du velger å Kjør .

Ordne, filtrere og gruppere rader i R ved å bruke Dplyr

Du kan da se i konsollen at et sammendrag av hvert lags statistikk vises. Dette ligner veldig på en pivottabell der du samler og oppsummerer data.




Konklusjon

For å oppsummere har to operasjoner i dplyr blitt diskutert. En tidligere opplæring fokuserte på kolonneoperasjoner. I mellomtiden viste denne gjeldende leksjonen deg hvordan du utfører radoperasjoner ved å bruke dplyr -pakken i RStudio. Spesifikt lærte du hvordan du ordner, filtrerer og grupperer rader i R.

Den neste tingen å lære er hvordan man kombinerer disse to operasjonene. Å bruke alle funksjonene du har lært så langt vil hjelpe deg med å lage koder i R. En mer nyttig teknikk ville imidlertid være en pipeline. Dette vil hjelpe alt flyte sammen. Så sørg for å se gjennom de neste veiledningene også.


Hvordan kommentere i Python – En hurtigveiledning for nybegynnere

Hvordan kommentere i Python – En hurtigveiledning for nybegynnere

Hvordan kommentere i Python – En hurtigveiledning for nybegynnere

Hva er Power Query & M Language: En detaljert oversikt

Hva er Power Query & M Language: En detaljert oversikt

Denne opplæringen gir en oversikt over Power Query Editor og M-språket på LuckyTemplates-skrivebordet.

Lag en paginert rapport: Legge til tekster og bilder

Lag en paginert rapport: Legge til tekster og bilder

Lær hvordan du lager en paginert rapport, legger til tekster og bilder og deretter eksporterer rapporten til ulike dokumentformater.

SharePoint Automate-funksjonen | En introduksjon

SharePoint Automate-funksjonen | En introduksjon

Lær hvordan du bruker SharePoint-automatiseringsfunksjonen til å lage arbeidsflyter og hjelpe deg med å mikroadministrere SharePoint-brukere, -biblioteker og -lister.

Løs en dataanalyseutfordring med LuckyTemplates Accelerator

Løs en dataanalyseutfordring med LuckyTemplates Accelerator

Utvid rapportutviklingsferdighetene dine ved å bli med i en dataanalyseutfordring. Akseleratoren kan hjelpe deg å bli en LuckyTemplates-superbruker!

Løpende totaler i LuckyTemplates ved hjelp av DAX

Løpende totaler i LuckyTemplates ved hjelp av DAX

Lær hvordan du beregner løpende totaler i LuckyTemplates ved hjelp av DAX. Løpende totaler lar deg ikke bli fanget opp i et individuelt resultat.

LuckyTemplates Dax-variabler er konstante: Hva betyr dette?

LuckyTemplates Dax-variabler er konstante: Hva betyr dette?

Forstå konseptet med variabler i DAX i LuckyTemplates og implikasjonene av variabler for hvordan målene dine beregnes.

LuckyTemplates Slope Chart: En oversikt

LuckyTemplates Slope Chart: En oversikt

Lær mer om det tilpassede visuelle bildet kalt LuckyTemplates Slope-diagram, som brukes til å vise økning/reduksjon for en enkelt eller flere beregninger.

LuckyTemplates fargetemaer for enhetlige visualiseringer

LuckyTemplates fargetemaer for enhetlige visualiseringer

Oppdag fargetemaene i LuckyTemplates. Disse er avgjørende for at rapportene og visualiseringene dine skal se ut og fungere sømløst.

Beregne gjennomsnitt i LuckyTemplates: Isolere ukedag- eller helgeresultater ved hjelp av DAX

Beregne gjennomsnitt i LuckyTemplates: Isolere ukedag- eller helgeresultater ved hjelp av DAX

Å beregne et gjennomsnitt i LuckyTemplates kan gjøres på mange måter for å gi deg nøyaktig informasjon for bedriftsrapportene dine.